🤖 Google DeepMind представила мультимодальную Gemma 4 12B
Модель использует архитектуру без выделенных энкодеров: вместо них применяются линейные проекции для встраивания изображений и аудио напрямую в текстовое пространство. Это значительно снижает задержку и требования к памяти. Модель поддерживает контекст до 256k токенов и обработку аудио (до 30с) и видео (до 60с).
🌍 Переход к encoder-free архитектуре позволяет создавать эффективные мультимодальные модели среднего размера, которые могут работать на потребительском железе (от 16 ГБ VRAM) без потери качества рассуждений.
👤 Вы можете запускать мощную мультимодальную нейросеть локально на обычном ноутбуке, используя текст, изображения и звук для решения задач.
Источник 1: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/
