Gaia2: новый бенчмарк для оценки LLM-агентов

🤖 Gaia2: новый бенчмарк для оценки LLM-агентов

Представлен Gaia2 — новый бенчмарк для оценки LLM-агентов в динамических и асинхронных средах. В отличие от статических тестов, Gaia2 заставляет модели работать в условиях временных ограничений, шума и взаимодействия с другими агентами. Исследование выявило разрыв между рассуждениями и способностью действовать в реальном времени: GPT-5 показал высокий результат, но не справился с жесткими дедлайнами.

🌍 Gaia2 смещает фокус оценки агентов от простого выполнения инструкций к устойчивости (robustness) в непредсказуемых условиях.

👤 Текущие модели все еще плохо справляются с задачами, где нужно успеть вовремя, что делает их пока ненадежными для полностью автономного использования.

Источник 1: https://arxiv.org/abs/2602.11964

Sources