Стартап Arena, выросший из исследовательского проекта UC Berkeley, достиг годового показателя выручки (ARR) в $100 млн. Основной продукт компании — краудсорсинговый лидерборд для слепого тестирования ИИ-моделей, который уже собрал более 10 миллионов пользовательских оценок.


Что произошло
Компания Arena успешно коммерциализировала свой краудсорсинговый лидерборд, достигнув ARR в $100 млн. Монетизация осуществляется через сервис AI Evaluations, который предоставляет глубокую аналитику и данные для обучения моделей в таких категориях, как текст, код, зрение и агентские сценарии.
Контекст
Проект зародился как академическое исследование в UC Berkeley. В процессе развития он превратился из бесплатного научного инструмента в ключевую коммерческую инфраструктуру для оценки качества LLM, используя метод слепого тестирования (blind testing) для сбора предпочтений реальных пользователей.
Почему это важно для индустрии
Arena становится серьезным коммерческим игроком, конкурируя с такими гигантами, как Scale AI, за бюджеты на разметку и оптимизацию данных. Переход к платным аналитическим сервисам сигнализирует о зрелости рынка оценки ИИ и формировании сегмента Evaluation-as-a-Service, где глубокая аналитика поведения модели становится важнее прохождения статичных бенчмарков.
Почему это важно для пользователей
Для разработчиков и пользователей рост популярности Arena подтверждает, что краудсорсинговое человеческое тестирование становится золотым стандартом. Это обеспечивает более надежный инструмент сравнения моделей «в реальном бою», снижая риски использования моделей с плохим пользовательским опытом.
Источники
Автор
Look at AI, редакция
