🤖 Провал AI-агента Linear: почему оценки качества текста недостаточно

Статья анализирует случай, когда AI-агент компании Linear шесть раз отправил некорректные письма клиенту. Главный вывод: ошибки агентов в продажах связаны не с качеством текста (generation), а с отсутствием проверки фактов (state-verification).

🌍 Происходит сдвиг парадигмы оценки ИИ-агентов от «LLM-as-a-judge» (оценка качества текста) к проверке соблюдения «контракта состояний» (state contract).

👤 При разработке важно фокусироваться не на вежливости бота, а на том, проверяет ли он критические данные перед выполнением действия.

Источник 1: https://tenureai.dev/writing/why-most-ai-evals-would-miss-the-linear-sales-email-failure/