Новое исследование AlexWortega показывает, что использование разных методов оптимизации (alignment) приводит к фундаментально разным внутренним структурам весов в больших языковых моделях, даже если внешние показатели качества остаются идентичными.

image
image

Что произошло

Исследование AlexWortega выявило, что методы SFT, RFT, DFT и offline GRPO формируют схожие ландшафты весов при обучении на одних и тех же данных. В то же время методы DPO, GRPO и DAPO создают принципиально иные структуры весов. Этот эффект геометрии весов остается стабильным и не зависит от таких гиперпараметров, как learning rate или случайный seed.

Контекст

В процессе обучения LLM методы alignment используются для настройки поведения модели. Традиционно считается, что если модели показывают одинаковый результат на бенчмарках, то их внутреннее устройство схоже, однако данная работа ставит это под сомнение, анализируя саму геометрию весов.

Почему это важно для индустрии

Для индустрии это означает, что высокая метрика на бенчмарках может маскировать глубокие различия во внутренних представлениях знаний. Это критически важно для разработки методов переносимости (transfer learning) и оценки надежности моделей. Понимание этих различий позволяет создавать уникальные технологические преимущества (moats) через специализированные методы обучения.

Почему это важно для пользователей

Для пользователей и разработчиков это объясняет, почему модели с одинаковыми показателями точности могут вести себя по-разному в нестандартных задачах или edge-case сценариях. Их «внутренняя карта» знаний построена по-разному в зависимости от выбранного метода обучения, что напрямую влияет на предсказуемость поведения модели.

Что пока неизвестно / ограничения

Прямых технических разногласий по результатам исследования не выявлено.

Источники

Автор

Look at AI, редакция