Сообщество исследователей представило Huihui-gemma-4-12B-it-abliterated — модифицированную версию модели Google Gemma 4 12B-it, в которой с помощью метода abliteration были удалены встроенные механизмы отказа (refusals).

Что произошло
Разработчики применили подход remove-refusals-with-transformers для точечной модификации весов модели, затронув только слои с 23 по 28. В результате была получена мультимодальная модель, работающая с тензорами типа BF16 и требующая около 16 ГБ видеопамяти, которая не накладывает морализаторских ограничений на генерацию контента.
Контекст
Метод abliteration позволяет эффективно удалять механизмы цензуры на уровне весов, не прибегая к полному и дорогостоящему процессу дообучения (fine-tuning). Это демонстрирует, что механизмы безопасности в архитектуре Gemma 4 могут быть локализованы в узком диапазоне слоев.
Почему это важно для индустрии
Данный релиз подтверждает эффективность методов быстрого снятия ограничений без необходимости полного fine-tuning, что радикально снижает порог входа для создания нишевых AI-агентов. Это задает тренд на развитие инструментов автоматизированного abliteration и рост числа «uncensored» моделей среднего размера (10-30B) как стандарта для исследовательских задач.
Почему это важно для пользователей
Пользователи получают доступ к мощной модели Gemma 4 без навязчивых отказов, что критически важно для творческих задач, ролевых игр или глубокого технического анализа, где стандартные фильтры безопасности могут препятствовать получению точных и полных ответов.
Что пока неизвестно / ограничения
Существуют риски непредсказуемого поведения модели и потери контроля над комплаенсом, что требует тщательной оценки безопасности и стабильности при использовании в продакшн-средах.
Источники
Автор
Look at AI, редакция
