Google представила LEAP (LLM-in-Lean Environment Agentic Prover) — агентный фреймворк для автоматического доказательства теорем на языке Lean. Система использует общие LLM, разбивая сложные математические задачи на иерархические подзадачи и используя компилятор Lean для рекурсивного исправления ошибок.
Что произошло
В рамках тестирования на олимпиаде Putnam 2025 система LEAP продемонстрировала исключительный результат, успешно решив все 12 задач. Для сравнения, специализированные модели вроде Goedel-Prover-V2 и мощные общие модели, такие как Gemini 3.1 Pro, не смогли решить ни одной задачи из предложенного списка.
Контекст
LEAP использует подход агентного планирования через структуру AND-OR DAG для декомпозиции задач. Вместо того чтобы просто генерировать текст, система работает в связке с компилятором Lean, который служит средой обратной связи. Это позволяет модели получать верифицированную информацию об ошибках и рекурсивно корректировать свои действия для построения корректного формального доказательства.
Почему это важно для индустрии
Разработка LEAP знаменует переход от узкоспециализированных «доказателей» к агентным системам на базе общих LLM. Это открывает путь к масштабируемому формальному математическому выводу и созданию паттерна «LLM + Formal Verifier Agent», который может быть применен в других областях, требующих абсолютной точности и верифицируемых рассуждений.
Почему это важно для пользователей
Для пользователей это важный шаг к созданию ИИ, способного к абсолютно надежным рассуждениям. В отличие от стандартных чат-ботов, склонных к галлюцинациям, системы на базе LEAP выдают доказательства, которые невозможно оспорить, так как их корректность проверяется математическим программным обеспечением.
Что пока неизвестно / ограничения
Несмотря на впечатляющие результаты, технология находится на стадии исследования. Существует необходимость в дальнейшем анализе эксплуатационной сложности (operational complexity) при внедрении подобных систем в реальные рабочие процессы.
Источники
- LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks (arXiv)
- LEAP Putnam 2025 Solutions (GitHub)
- IMO-LeanProofBench (GitHub)
Автор
Look at AI, редакция
