GFusion: как мы обучали диффузионную LLM в GigaChat

Команда GigaChat (Sber) представила GFusion — диффузионную языковую модель (dLLM), разработанную на базе GigaChat3-10B-A1.8B. В отличие от стандартных авторегрессионных моделей, GFusion генерирует текст не по одному токену, а восстанавливает блоки за несколько проходов, используя механизм диффузии.

Что произошло

Разработчики представили метод GFusion, который обеспечивает ускорение генерации в среднем на 70% при незначительной потере качества (в пределах 2–4 п.п.). Техническая реализация включает использование кастомных ядер на TileLang для ускорения обучения и поддержку в инференс-движке SGLang с применением нового алгоритма Entropy-Bounded Sampling.

Контекст

Традиционные LLM используют авторегрессионный подход, генерируя токены строго последовательно. GFusion адаптирована из существующей сильной модели GigaChat3-10B-A1.8B, что позволило эффективно внедрить механизм диффузии для параллельного восстановления блоков текста вместо классической посимвольной выдачи.

Почему это важно для индустрии

Переход от последовательной к параллельной диффузионной генерации открывает путь к кратному увеличению пропускной способности LLM. Разработка кастомных ядер и интеграция в open-source экосистему SGLang доказывает, что оптимизация на уровне архитектуры и железа позволяет преодолеть фундаментальные ограничения скорости классических трансформеров и радикально изменить экономику AI-продуктов за счет снижения стоимости инференса.

Почему это важно для пользователей

Для конечных пользователей это означает гораздо более мгновенное взаимодействие с нейросетями. Вместо того чтобы наблюдать за постепенным «печатанием» ответа по буквам, модели смогут выдавать целые абзацы практически сразу, сохраняя при этом высокий уровень связности текста.

Что пока неизвестно / ограничения

Существует различие в оценке фокуса: технические специалисты (, Architect) акцентируют внимание на пропускной способности и оптимизации, тогда как бизнес-ориентированные роли (, Product Builder) больше рассматривают изменение юнит-экономики и пользовательского опыта.

Источники

Автор

Look at AI, редакция