🤖 Gaia2: новый бенчмарк для оценки LLM-агентов
Представлен Gaia2 — новый бенчмарк для оценки LLM-агентов в динамических и асинхронных средах. В отличие от статических тестов, Gaia2 заставляет модели работать в условиях временных ограничений, шума и взаимодействия с другими агентами. Исследование выявило разрыв между рассуждениями и способностью действовать в реальном времени: GPT-5 показал высокий результат, но не справился с жесткими дедлайнами.
🌍 Gaia2 смещает фокус оценки агентов от простого выполнения инструкций к устойчивости (robustness) в непредсказуемых условиях.
👤 Текущие модели все еще плохо справляются с задачами, где нужно успеть вовремя, что делает их пока ненадежными для полностью автономного использования.
Источник 1: https://arxiv.org/abs/2602.11964
