Исследователи представили работу Thinking in Different Spaces, которая доказывает возможность передачи когнитивных способностей крупных языковых моделей малым архитектурам с помощью простых линейных преобразований латентных пространств.

image

Что произошло

В новой работе исследователи продемонстрировали, что различные архитектуры языковых моделей, включая MoE и Dense, формируют схожую геометрию латентных пространств, которая сохраняется при смене архитектуры. Используя метод Ridge projection для переноса активаций «учителя» в пространство «ученика», авторы добились прироста точности на 25.2% в бенчмарке TruthfulQA и на 25.5% в GSM8K без проведения дообучения весов моделей.

Контекст

Традиционно для повышения качества работы малых моделей требуется дорогостоящий процесс fine-tuning или дистилляции. Данное исследование фокусируется на изучении того, как именно организованы внутренние математические представления моделей и насколько эти представления универсальны для разных структур нейросетей при условии сохранения одного и того же домена знаний.

Почему это важно для индустрии

Для индустрии это открывает путь к эффективному Zero-Shot Steering, позволяя «подтягивать» интеллект малых моделей путем инъекции латентных представлений более мощных систем. Это может радикально удешевить инференс и упростить процесс дистилляции способностей, позволяя использовать крупные модели в качестве динамических навигаторов для управления активациями более легких архитектур.

Почему это важно для пользователей

Пользователи и разработчики смогут использовать более быстрые и дешевые модели, которые при этом будут демонстрировать уровень рассуждений, сопоставимый с гораздо более крупными системами. Это позволяет создавать умные «легкие» решения для специфических задач без необходимости развертывания тяжеловесных моделей.

Что пока неизвестно / ограничения

Было обнаружено, что качество геометрического выравнивания латентных пространств практически не коррелирует с эффективностью коррекции поведения модели, что вносит определенную неопределенность в практическую применимость метода.

Источники

Автор

Look at AI, редакция