Стартап Arena, выросший из исследовательского проекта UC Berkeley, достиг годового показателя выручки (ARR) в $100 млн. Основной продукт компании — краудсорсинговый лидерборд для слепого тестирования ИИ-моделей, который уже собрал более 10 миллионов пользовательских оценок.

image
image

Что произошло

Компания Arena успешно коммерциализировала свой краудсорсинговый лидерборд, достигнув ARR в $100 млн. Монетизация осуществляется через сервис AI Evaluations, который предоставляет глубокую аналитику и данные для обучения моделей в таких категориях, как текст, код, зрение и агентские сценарии.

Контекст

Проект зародился как академическое исследование в UC Berkeley. В процессе развития он превратился из бесплатного научного инструмента в ключевую коммерческую инфраструктуру для оценки качества LLM, используя метод слепого тестирования (blind testing) для сбора предпочтений реальных пользователей.

Почему это важно для индустрии

Arena становится серьезным коммерческим игроком, конкурируя с такими гигантами, как Scale AI, за бюджеты на разметку и оптимизацию данных. Переход к платным аналитическим сервисам сигнализирует о зрелости рынка оценки ИИ и формировании сегмента Evaluation-as-a-Service, где глубокая аналитика поведения модели становится важнее прохождения статичных бенчмарков.

Почему это важно для пользователей

Для разработчиков и пользователей рост популярности Arena подтверждает, что краудсорсинговое человеческое тестирование становится золотым стандартом. Это обеспечивает более надежный инструмент сравнения моделей «в реальном бою», снижая риски использования моделей с плохим пользовательским опытом.

Источники

Автор

Look at AI, редакция