Разработчик Фернандо Ираррасаваль провел масштабный эксперимент hackmyclaw.com, в ходе которого более 2000 пользователей предприняли более 6000 попыток взлома его ИИ-ассистента Fiu. Несмотря на использование методов социальной инженерии, ролевых игр и многоязычных запросов, защитные механизмы на базе Claude Opus 4.6 успешно предотвратили утечку секретных данных.

image

Что произошло

В рамках эксперимента пользователи пытались применить различные техники prompt injection для получения доступа к содержимому файла secrets.env. Атаки включали в себя создание ситуаций паники, языковую мимикрию и сложные ролевые сценарии. Итогом стало подтверждение того, что мощные модели способны игнорировать большинство стандартных попыток обхода системных инструкций, сохранив конфиденциальность данных.

Контекст

Проект hackmyclaw.com стал проверкой устойчивости современных LLM к целенаправленным атакам. В качестве ядра системы использовалась модель Claude Opus 4.6, что позволило изучить корреляцию между вычислительной мощностью модели и её способностью следовать протоколам безопасности (safety guidelines) в условиях агрессивного внешнего воздействия.

Почему это важно для индустрии

Для индустрии ИИ этот кейс подтверждает концепцию Security by Model Capability: сложность модели напрямую влияет на устойчивость к взлому. Однако это создает технический компромисс (trade-off) между безопасностью и экономикой, так как использование SOTA-моделей для защиты значительно увеличивает затраты на API и повышает риск блокировок со стороны провайдеров при массовых атаках.

Почему это важно для пользователей

Для пользователей и разработчиков автоматизации кейс служит наглядным пособием по реальным методам атак на ИИ-агентов. Он подчеркивает, что выбор мощной модели — это не только вопрос качества ответов, но и критический элемент безопасности, однако полагаться исключительно на системные инструкции при наличии широких прав доступа всё еще рискованно.

Что пока неизвестно / ограничения

Мощная модель является эффективным, но дорогим барьером, который не заменяет полноценную архитектурную безопасность и изоляцию прав доступа.

Источники

Автор

Look at AI, редакция