Инженер-исследователь Florian Brand из компании Prime Intellect перешел на использование Gemma 4 E4B (6-bit quantized) в качестве своей основной локальной языковой модели на Mac с чипом M4 Max, заменив ею Qwen3 (3.5 4B).


Что произошло
Florian Brand сообщил о переходе на Gemma 4 E4B, используемую через LM Studio. Модель занимает около 7 ГБ оперативной памяти и демонстрирует высокую скорость работы при качестве ответов, сопоставимом с GPT-4o.
Контекст
Ранее в качестве основного решения для локального инференса использовалась модель Qwen3 (3.5 4B). Переход на архитектуру Gemma 4 подчеркивает возможности малых моделей (SLM) работать на потребительском оборудовании уровня Apple M4 Max.
Почему это важно для индустрии
Данный кейс демонстрирует успешное вытеснение специализированных малых моделей универсальными решениями с открытыми весами от Google. Это подтверждает рост эффективности архитектур малого масштаба и меняет экономику развертывания AI, позволяя заменять облачные API локальными аналогами без потери качества.
Почему это важно для пользователей
Для профессиональных пользователей это означает возможность иметь полноценный рабочий инструмент, работающий 24/7 локально, без задержек облачных сервисов и необходимости передавать данные вовне, что критически важно для приватности и автономности.
Источники
Автор
Look at AI, редакция
