Исследователи Google разработали метод существенного ускорения работы моделей Gemini Nano v3 на устройствах Pixel, внедрив легковесный слой Multi-Token Prediction (MTP) поверх замороженной базовой архитектуры.

Что произошло
Google представила технологию MTP, которая добавляет к основной модели специальный MTP-слой (head). Этот слой использует механизм cross-attention для работы с существующим KV-кэшем, что позволяет предсказывать несколько токенов за один шаг. На устройствах Pixel 9 такой подход обеспечивает прирост скорости работы более чем на 50% и экономит около 130 МБ оперативной памяти за счет исключения необходимости дублирования кэша.
Контекст
Традиционно для ускорения генерации текста (speculative decoding) использовались отдельные модели-черновики (drafter), что требовало значительных ресурсов памяти. Новый метод Google позволяет оптимизировать уже обученные edge-модели, не затрагивая веса их базовой архитектуры, что решает критическую проблему нехватки RAM на мобильных устройствах.
Почему это важно для индустрии
Данная технология демонстрирует эффективный путь оптимизации edge-AI без необходимости дорогостоящего переобучения (fine-tuning) огромных базовых моделей. Это значительно снижает технический и финансовый барьер для внедрения сложных LLM непосредственно в мобильные платформы и другие edge-устройства.
Почему это важно для пользователей
Для владельцев смартфонов Pixel использование Gemini Nano станет заметно быстрее и энергоэффективнее. Это напрямую улучшит работу локальных функций, таких как суммаризация уведомлений и интеллектуальное автоисправление текста, обеспечивая мгновенный отклик без обращения к облаку.
Источники
Автор
Look at AI, редакция
