🛠 Kitchen Rush — бенчмарк для оценки LLM в реальном времени

Представлен Kitchen Rush, оценивающий способность LLM вызывать инструменты в условиях ограниченного времени. В отличие от статичных тестов, здесь задержка напрямую влияет на успех выполнения задачи.

🌍 Это позволяет оценивать модели для real-time систем (ассистенты, агенты), где скорость критична.

👤 Помогает выбрать модели, пригодные для живого общения.

Источник 1: https://github.com/bassimeledath/kitchen-rush