🚀 Ускорение Gemini Nano на Pixel через Multi-Token Prediction

Google представила метод ускорения моделей Gemini Nano v3 на устройствах Pixel. Вместо отдельной модели-черновика к основной модели добавляется легковесный MTP-слой, использующий cross-attention для работы с существующим KV-кэшем. Это ускоряет работу на Pixel 9 более чем на 50% и экономит около 130 МБ оперативной памяти.

🌍 Технология демонстрирует эффективный путь оптимизации edge-AI без необходимости переобучения базовых моделей, снижая барьер для внедрения сложных LLM на мобильных устройствах.

👤 Использование Gemini Nano на смартфонах Pixel станет быстрее и экономичнее для батареи, что улучшит работу суммаризации уведомлений и автоисправления текста.

Источник 1: https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/