🛠 Rubric: фреймворк для тестирования поведения AI-агентов

Представлен Rubric — Python-фреймворк для оценки AI-агентов. Он анализирует внутренние процессы: вызовы инструментов (tools), аргументы, порядок действий и качество рассуждений (reasoning trace).

🌍 Решает проблему «невидимых» регрессий, когда текст ответа корректен, но логика работы с инструментами нарушена.

👤 Позволяет перейти от проверки «красивых ответов» к гарантированной надежности работы автономных агентов.

Источник 1: https://github.com/Kareem-Rashed/rubric-eval