Команда GigaChat (Sber) представила GFusion — диффузионную языковую модель (dLLM), разработанную на базе GigaChat3-10B-A1.8B. В отличие от стандартных авторегрессионных моделей, GFusion генерирует текст не по одному токену, а восстанавливает блоки за несколько проходов, используя механизм диффузии.


Что произошло
Разработчики представили метод GFusion, который обеспечивает ускорение генерации в среднем на 70% при незначительной потере качества (в пределах 2–4 п.п.). Техническая реализация включает использование кастомных ядер на TileLang для ускорения обучения и поддержку в инференс-движке SGLang с применением нового алгоритма Entropy-Bounded Sampling.
Контекст
Традиционные LLM используют авторегрессионный подход, генерируя токены строго последовательно. GFusion адаптирована из существующей сильной модели GigaChat3-10B-A1.8B, что позволило эффективно внедрить механизм диффузии для параллельного восстановления блоков текста вместо классической посимвольной выдачи.
Почему это важно для индустрии
Переход от последовательной к параллельной диффузионной генерации открывает путь к кратному увеличению пропускной способности LLM. Разработка кастомных ядер и интеграция в open-source экосистему SGLang доказывает, что оптимизация на уровне архитектуры и железа позволяет преодолеть фундаментальные ограничения скорости классических трансформеров и радикально изменить экономику AI-продуктов за счет снижения стоимости инференса.
Почему это важно для пользователей
Для конечных пользователей это означает гораздо более мгновенное взаимодействие с нейросетями. Вместо того чтобы наблюдать за постепенным «печатанием» ответа по буквам, модели смогут выдавать целые абзацы практически сразу, сохраняя при этом высокий уровень связности текста.
Что пока неизвестно / ограничения
Существует различие в оценке фокуса: технические специалисты (, Architect) акцентируют внимание на пропускной способности и оптимизации, тогда как бизнес-ориентированные роли (, Product Builder) больше рассматривают изменение юнит-экономики и пользовательского опыта.
Источники
Автор
Look at AI, редакция
