Оценка способности LLM генерировать код на...

Новое исследование показывает, что даже при значительном росте синтаксической точности генерации кода на предметно-ориентированных языках (DSL), большие языковые модели всё еще не способны самостоятельно создавать научно корректные и сложные рабочие процессы в специализированных областях, таких как молекулярная динамика.

Что произошло

В ходе исследования оценивались возможности LLM по генерации кода для специализированных языков, в частности для использования в LAMMPS. Было установлено, что точность синтаксиса выросла с 74% до 91%, однако это не решило проблему создания функционально верных научных сценариев. Для преодоления этого разрыва авторы предложили внедрение agentic skills — инструментов автоматизированной проверки, позволяющих моделям проводить циклы самокоррекции.

Контекст

Работа с узкоспециализированными языками программирования (DSL) в науке и инженерии требует не только соблюдения правил синтаксиса, но и глубокого понимания физических или математических процессов. Традиционные подходы к генерации кода через простые промпты часто приводят к созданию синтаксически правильного, но научно бесполезного или ошибочного кода.

Почему это важно для индустрии

Для индустрии ИИ это означает смещение фокуса разработки: вместо улучшения качества генерации текста (промпт-инжиниринга) необходимо строить сложные агентные системы, интегрированные с инструментами верификации. Это открывает возможности для создания глубоко защищенных (moat) решений на специализированных вертикальных рынках, где надежность и научная валидность являются ключевыми конкурентными преимуществами.

Почему это важно для пользователей

Пользователям, применяющим ИИ для решения инженерных или научных задач, следует отказаться от стратегии «промпт -> код» в пользу «промпт -> итеративный цикл с верификацией». Ожидается рост потребности в специализированных инструментах для оценки (evals) и мониторинга (observability) процессов генерации кода в специализированных средах.

Что пока неизвестно / ограничения

Существуют различия в оценке бизнес-ценности исследования в зависимости от роли: технические специалисты фокусируются на надежности, в то время как предприниматели видят в этом прежде всего стратегическую возможность создания рыночных барьеров.

Источники

Автор

Look at AI, редакция