Исследователи представили работу Thinking in Different Spaces, которая доказывает возможность передачи когнитивных способностей крупных языковых моделей малым архитектурам с помощью простых линейных преобразований латентных пространств.

Что произошло
В новой работе исследователи продемонстрировали, что различные архитектуры языковых моделей, включая MoE и Dense, формируют схожую геометрию латентных пространств, которая сохраняется при смене архитектуры. Используя метод Ridge projection для переноса активаций «учителя» в пространство «ученика», авторы добились прироста точности на 25.2% в бенчмарке TruthfulQA и на 25.5% в GSM8K без проведения дообучения весов моделей.
Контекст
Традиционно для повышения качества работы малых моделей требуется дорогостоящий процесс fine-tuning или дистилляции. Данное исследование фокусируется на изучении того, как именно организованы внутренние математические представления моделей и насколько эти представления универсальны для разных структур нейросетей при условии сохранения одного и того же домена знаний.
Почему это важно для индустрии
Для индустрии это открывает путь к эффективному Zero-Shot Steering, позволяя «подтягивать» интеллект малых моделей путем инъекции латентных представлений более мощных систем. Это может радикально удешевить инференс и упростить процесс дистилляции способностей, позволяя использовать крупные модели в качестве динамических навигаторов для управления активациями более легких архитектур.
Почему это важно для пользователей
Пользователи и разработчики смогут использовать более быстрые и дешевые модели, которые при этом будут демонстрировать уровень рассуждений, сопоставимый с гораздо более крупными системами. Это позволяет создавать умные «легкие» решения для специфических задач без необходимости развертывания тяжеловесных моделей.
Что пока неизвестно / ограничения
Было обнаружено, что качество геометрического выравнивания латентных пространств практически не коррелирует с эффективностью коррекции поведения модели, что вносит определенную неопределенность в практическую применимость метода.
Источники
Автор
Look at AI, редакция
