🛠 Kitchen Rush — бенчмарк для оценки LLM в реальном времени
Представлен Kitchen Rush, оценивающий способность LLM вызывать инструменты в условиях ограниченного времени. В отличие от статичных тестов, здесь задержка напрямую влияет на успех выполнения задачи.
🌍 Это позволяет оценивать модели для real-time систем (ассистенты, агенты), где скорость критична.
👤 Помогает выбрать модели, пригодные для живого общения.
Источник 1: https://github.com/bassimeledath/kitchen-rush
