Инженер-исследователь Florian Brand из компании Prime Intellect перешел на использование Gemma 4 E4B (6-bit quantized) в качестве своей основной локальной языковой модели на Mac с чипом M4 Max, заменив ею Qwen3 (3.5 4B).

image
image

Что произошло

Florian Brand сообщил о переходе на Gemma 4 E4B, используемую через LM Studio. Модель занимает около 7 ГБ оперативной памяти и демонстрирует высокую скорость работы при качестве ответов, сопоставимом с GPT-4o.

Контекст

Ранее в качестве основного решения для локального инференса использовалась модель Qwen3 (3.5 4B). Переход на архитектуру Gemma 4 подчеркивает возможности малых моделей (SLM) работать на потребительском оборудовании уровня Apple M4 Max.

Почему это важно для индустрии

Данный кейс демонстрирует успешное вытеснение специализированных малых моделей универсальными решениями с открытыми весами от Google. Это подтверждает рост эффективности архитектур малого масштаба и меняет экономику развертывания AI, позволяя заменять облачные API локальными аналогами без потери качества.

Почему это важно для пользователей

Для профессиональных пользователей это означает возможность иметь полноценный рабочий инструмент, работающий 24/7 локально, без задержек облачных сервисов и необходимости передавать данные вовне, что критически важно для приватности и автономности.

Источники

Автор

Look at AI, редакция