🧠 Разная геометрия весов при схожих методах обучения LLM
Исследование AlexWortega показало, что методы DPO, GRPO и DAPO формируют принципиально иную структуру весов моделей по сравнению с SFT, RFT и DFT, даже на идентичных данных. Этот эффект стабилен и не зависит от гиперпараметров.
🌍 Это критически важно для разработки методов transfer learning и оценки надежности моделей, так как разные методы обучения создают разные внутренние представления знаний.
👤 Это объясняет, почему модели с одинаковой точностью могут вести себя по-разному в новых задачах — их «внутренняя карта» знаний построена по-разному.
Источник 1: https://huggingface.co/spaces/AlexWortega/same-data-different-losses Источник 2: https://x.com/justALEXWORTEGA/status/2068790635570561429
