🤖 Могут ли LLM переписать софт с нуля?

Epoch AI и METR представили MirrorCode — бенчмарк для проверки способности ИИ-агентов восстанавливать программное обеспечение с нуля, опираясь только на поведение (black-box) и документацию, без доступа к исходному коду. В тестировании участвовали 25 программ в шести языках (Python, C, Rust, Go, OCaml, Ada), а проверка осуществлялась через байт-точное совпадение вывода. Лидером стал Claude Opus 4.7 с результатом 56%, успешно справившись с биоинформатическим тулкитом gotree (16 000 строк Go) всего за 14 часов.

🌍 MirrorCode задает новый стандарт оценки «длинного горизонта» (long-horizon) планирования агентов, демонстрируя, что для серьезных задач требуются огромные вычислительные бюджеты (до нескольких тысяч долларов за один прогон). Результаты показывают, что ИИ начинает понимать логику программирования шире, чем просто синтаксис, но всё ещё спотыкается на пограничных случаях (edge cases) и модульной архитектуре.

👤 Это важный шаг к пониманию того, насколько реально передать ИИ задачу «напиши мне аналог этой утилиты». Пока что агенты хорошо справляются с простыми инструментами, но для крупных проектов (Large tier) всё ещё требуется участие человека для контроля качества и архитектуры.

Источник 1: https://epoch.ai/files/MirrorCode_3d9aab.pdf