🤖 GroundEval: детерминированная оценка AI-агентов

Представлен фреймворк GroundEval — детерминированная альтернатива методу LLM-as-Judge для оценки работы AI-агентов. Система анализирует траекторию действий агента, проверяя достоверность каждого шага (поиск, извлечение, цитирование).

🌍 GroundEval устраняет проблему «разрыва правдоподобности» (plausibility gap), когда LLM-судьи ошибочно поощряют агентов за верные ответы, полученные через неверную логику.

👤 Это позволяет разработчикам гарантировать, что AI-агенты опираются на реальные данные, а не на случайные совпадения.

Источник 1: https://arxiv.org/abs/2606.22737