Компании Epoch AI и METR представили MirrorCode — новый бенчмарк, предназначенный для проверки способности ИИ-агентов восстанавливать программное обеспечение с нуля, основываясь исключительно на поведении (black-box) и документации без доступа к исходному коду.

Что произошло

В тестировании MirrorCode приняли участие 25 программ на шести языках программирования: Python, C, Rust, Go, OCaml и Ada. Проверка качества выполнения задач осуществлялась через байт-точное совпадение вывода (stdout/stderr). Лучший результат показала модель Claude Opus 4.7, набравшая 56%. В частности, она успешно восстановила биоинформатический тулкит gotree объемом 16 000 строк на языке Go всего за 14 часов при затратах в 251 доллар.

Контекст

Бенчмарк использует метод black-box тестирования, что минимизирует риск получения захардкоженных ответов и смещает фокус с проверки синтаксиса на оценку способности агентов к долгосрочному планированию (long-horizon planning). Для проведения глубоких тестов на true reasoning требуются экстремально высокие вычислительные бюджеты, достигающие десятков миллиардов токенов и тысяч долларов за один прогон.

Почему это важно для индустрии

MirrorCode задает новый стандарт оценки автономности агентов, переходя от простых чат-ботов к полноценным исполнителям сложных цепочек действий. Это стимулирует развитие инструментов для оценки «длинного горизонта» планирования и создает спрос на специализированную инфраструктуру для запуска ресурсоемких агентских циклов. В долгосрочной перспективе это может привести к появлению коммерческих инструментов для автоматической миграции legacy-кода.

Почему это важно для пользователей

Для разработчиков и пользователей это важный индикатор того, насколько реально делегировать ИИ задачу создания аналогов существующих утилит. Хотя агенты уже показывают успехи в работе с простыми инструментами, для реализации крупных архитектурных проектов (Large tier) всё еще критически необходимо участие человека для контроля качества и проектирования системы.

Что пока неизвестно / ограничения

Текущая высокая стоимость вычислений делает массовое промышленное применение ИИ-агентов для решения сложных задач экономически нецелесообразным. Кроме того, модели всё еще могут допускать ошибки при работе с пограничными случаями (edge cases) и сложной модульной архитектурой.

Источники

Автор

Look at AI, редакция