🤖 GroundEval: детерминированная оценка AI-агентов
Представлен фреймворк GroundEval — детерминированная альтернатива методу LLM-as-Judge для оценки работы AI-агентов. Система анализирует траекторию действий агента, проверяя достоверность каждого шага (поиск, извлечение, цитирование).
🌍 GroundEval устраняет проблему «разрыва правдоподобности» (plausibility gap), когда LLM-судьи ошибочно поощряют агентов за верные ответы, полученные через неверную логику.
👤 Это позволяет разработчикам гарантировать, что AI-агенты опираются на реальные данные, а не на случайные совпадения.
Источник 1: https://arxiv.org/abs/2606.22737
