Защитные механизмы ИИ-моделей Meta и Google взламываются за минуты

🛡 Защитные механизмы ИИ-моделей Meta и Google взламываются за минуты

Исследование Financial Times и группы безопасности Alice показало, что специализированное ПО позволяет за считанные минуты удалять защитные механизмы (guardrails) из моделей Meta и Google. С помощью легковесного дообучения (fine-tuning) злоумышленники создают тысячи версий моделей, способных обходить ограничения.

🌍 Это ставит под сомнение эффективность текущих методов безопасности, так как автоматизированный «джейлбрейк» снижает порог входа для создания вредоносного контента в промышленных масштабах.

👤 Массовое распространение модифицированных версий делает контроль за контентом практически невозможным.

Источник 1: https://letsdatascience.com/news/tools-strip-safety-guardrails-from-meta-google-models-93d3dc60 Источник 2: https://www.irishtimes.com/business/2026/05/25/ai-guardrails-stripped-from-meta-and-google-models-in-minutes/

Sources