Геометрия латентных пространств сохраняется при смене архитектуры LLM

Исследователи доказали, что архитектурные особенности языковых моделей определяют геометрию их латентных пространств, которую можно использовать для переноса знаний между моделями.

Автор Sergey KostenchukОпубликовано 2026-06-11Обновлено 2026-06-11

2026-06-11 Исследования

🧠 Геометрия латентных пространств сохраняется при смене архитектуры LLM

В работе «Thinking in Different Spaces» доказано, что разные архитектуры моделей (MoE, Dense) формируют схожую геометрию латентных пространств. С помощью Ridge projection удалось переносить активации «учителя» в пространство «ученика», что повысило точность на TruthfulQA на 25.2% и на GSM8K на 25.5% без дообучения весов.

🌍 Это открывает путь к эффективному Zero-Shot Steering — возможности «подтягивать» интеллект малых моделей через линейные преобразования, что значительно удешевляет инференс.

👤 Маленькие и быстрые модели можно заставить рассуждать на уровне больших, просто «подсказывая» им правильные направления в их же внутренних математических пространствах.

Источник 1: https://arxiv.org/abs/2603.20406

Источники