Защита Meta и Google в ИИ-моделях обходится за минуты

🛡 Защиту Meta и Google в ИИ-моделях обходят за минуты

Исследователи обнаружили, что механизмы безопасности (safety guardrails) в популярных open-weight моделях, таких как Meta Llama 3.3 и Google Gemma 3, легко обходятся с помощью инструмента Heretic менее чем за 10 минут.

🌍 Это демонстрирует «проблему наклейки» (sticker problem), когда безопасность накладывается поверх модели, а не встроена в нее. Это может спровоцировать жесткое регулирование ИИ.

👤 Для AI Safety исследователей это критический риск, а для создателей продуктов — возможность для новых unfiltered инструментов.

Источник 1: https://cryptobriefing.com/meta-google-ai-safety-controls-removable/

Sources