🤖 Новый метод оценки качества ответов LLM: BINEVAL
Вместо субъективного судейства BINEVAL использует серию атомарных бинарных вопросов о точности, связности и стиле ответов.
🌍 Это позволяет превратить оценку ИИ из «черного ящика» в прозрачную систему для быстрой отладки и автоматизации промптов.
👤 Теперь можно получить четкий список причин, почему ответ не соответствует задаче, а не просто общую оценку.
Источник 1: https://arxiv.org/abs/2606.27226
