🛡 2000 человек пытались взломать ИИ-ассистента
Разработчик Фернандо Ираррасаваль провел эксперимент hackmyclaw.com, где пользователи пытались взломать его ИИ-ассистента Fiu (на базе Claude Opus 4.6) через prompt injection. Несмотря на 6000+ атак, секретные данные не были украдены.
🌍 Использование топовых моделей значительно повышает устойчивость агентов к атакам, но полагаться только на системные инструкции при наличии прав доступа всё еще рискованно.
👤 Кейс показывает реальные методы атак (ролевые игры, языковая мимикрия) и важность выбора мощной модели для защиты критических задач автоматизации.
Источник 1: https://www.fernandoi.cl/posts/hackmyclaw/
