Выпуск Huihui-gemma-4-12B-it-abliterated: снятие фильтров безопасности с Google Gemma 4

Сообщество исследователей представило Huihui-gemma-4-12B-it-abliterated — модифицированную версию модели Google Gemma 4 12B-it, в которой с помощью метода abliteration были удалены встроенные механизмы отказа (refusals).

Что произошло

Разработчики применили подход remove-refusals-with-transformers для точечной модификации весов модели, затронув только слои с 23 по 28. В результате была получена мультимодальная модель, работающая с тензорами типа BF16 и требующая около 16 ГБ видеопамяти, которая не накладывает морализаторских ограничений на генерацию контента.

Контекст

Метод abliteration позволяет эффективно удалять механизмы цензуры на уровне весов, не прибегая к полному и дорогостоящему процессу дообучения (fine-tuning). Это демонстрирует, что механизмы безопасности в архитектуре Gemma 4 могут быть локализованы в узком диапазоне слоев.

Почему это важно для индустрии

Данный релиз подтверждает эффективность методов быстрого снятия ограничений без необходимости полного fine-tuning, что радикально снижает порог входа для создания нишевых AI-агентов. Это задает тренд на развитие инструментов автоматизированного abliteration и рост числа «uncensored» моделей среднего размера (10-30B) как стандарта для исследовательских задач.

Почему это важно для пользователей

Пользователи получают доступ к мощной модели Gemma 4 без навязчивых отказов, что критически важно для творческих задач, ролевых игр или глубокого технического анализа, где стандартные фильтры безопасности могут препятствовать получению точных и полных ответов.

Что пока неизвестно / ограничения

Существуют риски непредсказуемого поведения модели и потери контроля над комплаенсом, что требует тщательной оценки безопасности и стабильности при использовании в продакшн-средах.

Источники

Hugging Face

Автор

Look at AI, редакция