🤖 Геометрия весов в обучении рассуждению моделей
Исследователи представили работу «Weight-Space Geometry of Offline Reasoning Training», принятую на воркшоп ICML 2026. В исследовании анализируется влияние различных методов offline RL (SFT, RFT, RIFT, DFT, GRPO, DPO) на веса моделей при обучении рассуждениям. Результаты показывают, что SFT, RFT и RIFT фактически производят идентичные обновления весов (косинусное сходство ≥ 0.97), тогда как DPO является принципиально иным алгоритмом, обеспечивающим значительный прирост точности на задачах GSM8K (93.5% против 87-88%) и AIME26.
🌍 Работа разоблачает миф о том, что многие современные методы «offline RL для рассуждений» — это нечто большее, чем просто SFT. Понимание геометрической природы обновлений весов позволяет более эффективно выбирать методы дистилляции ризонинга и избегать избыточного использования методов, которые фактически дублируют друг друга.
👤 Если вы занимаетесь дообучением LLM, знайте, что многие популярные методы (RFT, RIFT) могут не давать новых качественных изменений по сравнению с простым SFT, а истинный прорыв в качестве рассуждений обеспечивается архитектурно иными подходами, такими как DPO.
Источник 1: https://openreview.net/forum?id=mzgEXubB5M Источник 2: https://github.com/zj-karina/conference-poster