🚀 Google представила DiffusionGemma

Экспериментальная модель на базе Gemma 4 26B MoE использует дискретную диффузию для параллельной обработки блоков по 256 токенов. Это позволяет достигать скорости свыше 1000 токенов/с на NVIDIA H100.

🌍 Диффузионный подход меняет стандарты инференса, максимизируя параллелизм GPU и снижая задержки.

👤 Будущие локальные ИИ-помощники смогут выдавать целые абзацы текста мгновенно, что важно для работы на пользовательских GPU вроде RTX 5090.

Источник 1: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ Источник 2: https://huggingface.co/google/diffusiongemma-26B-A4B-it