Google представила DiffusionGemma — экспериментальную модель на базе архитектуры Gemma 4 26B MoE, которая использует метод дискретной диффузии для радикального ускорения генерации текста. Вместо последовательного предсказания токенов модель параллельно обрабатывает блоки данных, что позволяет достигать экстремальных скоростей инференса на современном оборудовании.


Что произошло
Google разработала DiffusionGemma, экспериментальную модель с архитектурой Mixture-of-Experts (MoE). Модель обладает общим объемом 26B параметров, однако благодаря разреженной структуре (активны только 8 из 128 экспертов) во время инференса используется всего 3.8B параметров. Основное новшество заключается в использовании дискретной диффузии, позволяющей обрабатывать блоки (канвасы) по 256 токенов параллельно. В результате скорость генерации достигает более 1000 токенов в секунду на NVIDIA H100 и свыше 700 токенов в секунду на пользовательских видеокартах RTX 5090.
Контекст
Традиционные LLM используют авторегрессионный подход, предсказывая каждый следующий токен последовательно, что создает ограничение по скорости (bottleneck) и не позволяет полностью использовать параллелизм GPU. DiffusionGemma предлагает смену парадигмы, переходя от посимвольного или поток-ориентированного декодирования к методам, способным генерировать целые фрагменты текста за один шаг.
Почему это важно для индустрии
Переход к диффузионным подходам может радикально изменить стандарты производительности инференса в индустрии. Это открывает путь к созданию гибридных архитектур, которые решают проблему задержек при генерации больших объемов текста. Успех таких прототипов может привести к сдвигу индустриального стандарта: если качество диффузии сравняется с авторегрессией, традиционный потоковый вывод (token-by-token streaming) может устареть.
Почему это важно для пользователей
Для конечных пользователей это означает появление ИИ-помощников, работающих практически мгновенно. Вместо привычного процесса «печатания» текста буква за буквой, интерфейсы смогут выдавать целые абзацы сразу. Это критически важно для интерактивных приложений и работы на локальном потребительском железе, таком как серия RTX 50, где важна высокая пропускная способность без огромных задержек.
Что пока неизвестно / ограничения
На текущем этапе существует существенный компромисс между скоростью и качеством: использование дискретной диффузии приводит к снижению точности и качества генерации текста по сравнению с классическими авторегрессионными моделями, что может ограничивать их применение в серьезных продакшн-системах.
Источники
Автор
Look at AI, редакция
