Разная геометрия весов при схожих методах обучения LLM

Исследование AlexWortega показало, что методы оптимизации DPO, GRPO и DAPO создают иную структуру весов моделей по сравнению с SFT или RFT, даже при использовании одних и тех же данных.

Автор Sergey KostenchukОпубликовано 2026-06-21Обновлено 2026-06-22

2026-06-21 Исследования HuggingFace

🧠 Разная геометрия весов при схожих методах обучения LLM

Исследование AlexWortega показало, что методы DPO, GRPO и DAPO формируют принципиально иную структуру весов моделей по сравнению с SFT, RFT и DFT, даже на идентичных данных. Этот эффект стабилен и не зависит от гиперпараметров.

🌍 Это критически важно для разработки методов transfer learning и оценки надежности моделей, так как разные методы обучения создают разные внутренние представления знаний.

👤 Это объясняет, почему модели с одинаковой точностью могут вести себя по-разному в новых задачах — их «внутренняя карта» знаний построена по-разному.

Источник 1: https://huggingface.co/spaces/AlexWortega/same-data-different-losses Источник 2: https://x.com/justALEXWORTEGA/status/2068790635570561429

Источники