Новое исследование на базе датасета SWE-bench Verified показало, что частота написания тестов LLM-агентами не коррелирует с успешностью решения задач. Вместо использования полноценных проверок (assert), агенты зачастую лишь имитируют человеческое поведение, используя команды вывода (print) для наблюдения за состоянием кода, что ведет к неэффективному расходу токенов без реального прироста точности.

Что произошло
В ходе исследования на базе SWE-bench Verified было обнаружено, что процесс генерации тестов современными Software Engineering агентами часто является лишь имитацией рабочего процесса программиста. Вместо того чтобы использовать тесты как функциональный инструмент верификации кода, LLM-агенты склонны использовать менее эффективные методы отладки, такие как print-вывод, для отслеживания состояния системы. Это приводит к неоправданным затратам вычислительных ресурсов и токенов без гарантии улучшения качества итогового решения.
Контекст
Текущие архитектуры AI-агентов в области разработки ПО часто строятся на принципе слепого копирования паттернов человеческого программирования. В рамках этих циклов генерация тестов рассматривается как стандартный этап верификации, однако текущие данные ставят под сомнение целесообразность использования длинных контекстов исключительно ради создания тестового покрытия, которое не приносит измеримой пользы.
Почему это важно для индустрии
Для индустрии это сигнал к радикальному пересмотру архитектур Software Engineering агентов. Вместо копирования человеческих паттернов, фокус R&D должен сместиться на разработку более дешевых и эффективных методов верификации, таких как статический анализ, lightweight assertions или методы observability. Также необходимо внедрять новые стандарты оценки (evals), где успех измеряется фактической способностью системы к исправлению ошибок, а не количеством написанного кода или тестов.
Почему это важно для пользователей
Разработчикам и компаниям, использующим инструменты автоматизации разработки, важно понимать, что «умные» агенты могут тратить значительные ресурсы на бесполезные действия. Это знание позволяет более критично оценивать реальную производительность и стоимость инструментов автоматизации, а также ожидать перехода от простых циклов «код — тест» к более сложным методам проверки промежуточных состояний (state verification).
Что пока неизвестно / ограничения
Явных технических противоречий в выводах не обнаружено, дискуссия носит консенсусный характер относительно неэффективности текущих подходов.
Источники
Автор
Look at AI, редакция
