🚀 Google представила DiffusionGemma
Экспериментальная модель на базе Gemma 4 26B MoE использует дискретную диффузию для параллельной обработки блоков по 256 токенов. Это позволяет достигать скорости свыше 1000 токенов/с на NVIDIA H100.
🌍 Диффузионный подход меняет стандарты инференса, максимизируя параллелизм GPU и снижая задержки.
👤 Будущие локальные ИИ-помощники смогут выдавать целые абзацы текста мгновенно, что важно для работы на пользовательских GPU вроде RTX 5090.
Источник 1: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ Источник 2: https://huggingface.co/google/diffusiongemma-26B-A4B-it
