🛠 AWS представила GEDD — инструмент для качественной оценки работы AI-агентов.

Проект использует методологию Grounded Theory, позволяя экспертам выявлять специфические ошибки через диалог с агентом. Результаты автоматически превращаются в пайплайны тестирования и LLM-судей (G-Eval) для интеграции в CI/CD через SageMaker MLflow.

🌍 Решает проблему «слепого тестирования», превращая качественный опыт экспертов в автоматизированные количественные тесты.

👤 Позволяет быстрее проверять AI-агентов на глубокие предметные ошибки, такие как галлюцинации в медицине или праве.

Источник 1: https://github.com/aws-samples/sample-GEDD