🛠 AWS представила GEDD — инструмент для качественной оценки работы AI-агентов.
Проект использует методологию Grounded Theory, позволяя экспертам выявлять специфические ошибки через диалог с агентом. Результаты автоматически превращаются в пайплайны тестирования и LLM-судей (G-Eval) для интеграции в CI/CD через SageMaker MLflow.
🌍 Решает проблему «слепого тестирования», превращая качественный опыт экспертов в автоматизированные количественные тесты.
👤 Позволяет быстрее проверять AI-агентов на глубокие предметные ошибки, такие как галлюцинации в медицине или праве.
Источник 1: https://github.com/aws-samples/sample-GEDD
