LEAP: система, которая помогла LLM решить все задачи олимпиады Putnam 2025

Google представила LEAP (LLM-in-Lean Environment Agentic Prover) — агентный фреймворк для автоматического доказательства теорем на языке Lean. Система использует общие LLM, разбивая сложные математические задачи на иерархические подзадачи и используя компилятор Lean для рекурсивного исправления ошибок.

Что произошло

В рамках тестирования на олимпиаде Putnam 2025 система LEAP продемонстрировала исключительный результат, успешно решив все 12 задач. Для сравнения, специализированные модели вроде Goedel-Prover-V2 и мощные общие модели, такие как Gemini 3.1 Pro, не смогли решить ни одной задачи из предложенного списка.

Контекст

LEAP использует подход агентного планирования через структуру AND-OR DAG для декомпозиции задач. Вместо того чтобы просто генерировать текст, система работает в связке с компилятором Lean, который служит средой обратной связи. Это позволяет модели получать верифицированную информацию об ошибках и рекурсивно корректировать свои действия для построения корректного формального доказательства.

Почему это важно для индустрии

Разработка LEAP знаменует переход от узкоспециализированных «доказателей» к агентным системам на базе общих LLM. Это открывает путь к масштабируемому формальному математическому выводу и созданию паттерна «LLM + Formal Verifier Agent», который может быть применен в других областях, требующих абсолютной точности и верифицируемых рассуждений.

Почему это важно для пользователей

Для пользователей это важный шаг к созданию ИИ, способного к абсолютно надежным рассуждениям. В отличие от стандартных чат-ботов, склонных к галлюцинациям, системы на базе LEAP выдают доказательства, которые невозможно оспорить, так как их корректность проверяется математическим программным обеспечением.

Что пока неизвестно / ограничения

Несмотря на впечатляющие результаты, технология находится на стадии исследования. Существует необходимость в дальнейшем анализе эксплуатационной сложности (operational complexity) при внедрении подобных систем в реальные рабочие процессы.

Источники

Автор

Look at AI, редакция