🧪 Тесты LLM-агентов не гарантируют качество кода

Исследование на базе SWE-bench Verified показало, что частота написания тестов LLM-агентами не коррелирует с успешностью решения задач. Вместо использования проверок (assert), агенты чаще используют команды вывода (print) для наблюдения за состоянием кода.

🌍 Это сигнал к пересмотру архитектуры Software Engineering Agents: вместо слепого копирования человеческих паттернов, фокус должен сместиться на более дешевые и эффективные методы верификации кода.

👤 Понимание того, что «умные» агенты могут тратить ресурсы на бесполезные действия, поможет лучше оценивать реальную производительность инструментов автоматизации разработки.

Источник 1: https://arxiv.org/abs/2602.07900