Kitchen Rush: новый бенчмарк для оценки скорости и точности LLM при...

Представлен Kitchen Rush — инновационный бенчмарк, оценивающий способность больших языковых моделей (LLM) вызывать инструменты (tool calling) в условиях ограниченного времени. В отличие от традиционных статических тестов, Kitchen Rush использует игровую механику, вдохновленную Overcooked, где задержка модели (latency) напрямую влияет на успех выполнения задач.

Что произошло

Разработчики представили Kitchen Rush, динамический бенчмарк, который моделирует real-time сценарии. Система оценивает не только точность вызова функций, но и скорость принятия решений через специальную метрику Kitchen Rush (KR). При тестировании устанавливаются различные временные бюджеты, например, 1 секунда или 5 секунд на решение, а любые задержки в «мышлении» модели приводят к просрочке игровых событий и заказов.

Контекст

Современные методы оценки LLM зачастую фокусируются на «чистом интеллекте» или статическом reasoning, игнорируя фактор времени. Однако в реальных production-средах, таких как голосовые ассистенты или live-ops агенты, задержка является критическим фактором, определяющим применимость модели.

Почему это важно для индустрии

Появление Kitchen Rush сигнализирует о сдвиге фокуса индустрии от оценки максимальной точности к оценке эффективности в реальном времени. Это создает потребность в разработке моделей, оптимизированных под жесткие временные бюджеты, и может привести к появлению новых методов обучения (например, через RL), нацеленных на минимизацию latency при сохранении качества reasoning.

Почему это важно для пользователей

Для разработчиков и пользователей это означает переход к более честной оценке ИИ-агентов. Теперь можно будет выбирать модели не только по высоким показателям в тестах типа MMLU, но и по их способности поддерживать живое общение и мгновенную реакцию, отсеивая слишком медленные системы на этапе прототипирования.

Источники

GitHub - bassimeledath/kitchen-rush

Автор

Look at AI, редакция