2000 человек пытались взломать ИИ-ассистента

Разработчик Фернандо Ираррасаваль провел эксперимент, в ходе которого более 2000 пользователей пытались взломать его ИИ-ассистента Fiu с помощью prompt injection.

Автор Sergey KostenchukОпубликовано 2026-06-26Обновлено 2026-06-27

2026-06-26 Безопасность и регулирование Anthropic

🛡 2000 человек пытались взломать ИИ-ассистента

Разработчик Фернандо Ираррасаваль провел эксперимент hackmyclaw.com, где пользователи пытались взломать его ИИ-ассистента Fiu (на базе Claude Opus 4.6) через prompt injection. Несмотря на 6000+ атак, секретные данные не были украдены.

🌍 Использование топовых моделей значительно повышает устойчивость агентов к атакам, но полагаться только на системные инструкции при наличии прав доступа всё еще рискованно.

👤 Кейс показывает реальные методы атак (ролевые игры, языковая мимикрия) и важность выбора мощной модели для защиты критических задач автоматизации.

Источник 1: https://www.fernandoi.cl/posts/hackmyclaw/

Источники