Новое исследование «Weight-Space Geometry of Offline Reasoning Training», принятое на воркшоп ICML 2026, доказывает, что многие популярные методы обучения рассуждениям (reasoning) являются лишь математическими вариациями обычного SFT, в то время как DPO обеспечивает принципиально иной и более эффективный путь развития моделей.
Что произошло
Исследователи провели геометрический анализ обновлений весов при использовании различных методов offline RL, включая SFT, RFT, RIFT, DFT, GRPO и DPO. Результаты показали, что методы SFT, RFT и RIFT производят практически идентичные изменения параметров с косинусным сходством не менее 0.97. В отличие от них, алгоритм DPO продемонстрировал качественный скачок в точности на бенчмарках GSM8K (93.5% против 87-88%) и AIME26.
Контекст
В современной индустрии обучения LLM активно применяются методы offline Reinforcement Learning для улучшения способностей моделей к логическому выводу. Однако зачастую неясно, приносят ли такие методы, как RFT или RIFT, реальный вклад в изменение внутренней геометрии модели или они просто дублируют процесс дообучения на примерах (SFT).
Почему это важно для индустрии
Работа демистифицирует текущие подходы к дистилляции reasoning-способностей, позволяя компаниям избежать избыточных вычислительных затрат на использование методов, которые фактически эквивалентны SFT. Это открывает путь к созданию более эффективных пайплайнов, фокусирующихся на архитектурно иных методах, таких как DPO, и более глубоком понимании геометрии предпочтений.
Почему это важно для пользователей
Разработчикам и инженерам, занимающимся дообучением моделей, стоит пересмотреть свои циклы обучения. Вместо использования дорогостоящих и избыточных RFT/RIFT циклов можно сосредоточиться на оптимизации SFT или переходе к DPO для достижения значительного прироста качества рассуждений.
Источники
Автор
Look at AI, редакция