Является ли запрос на подтверждение действия ИИ-агента границей...

Исследователь безопасности NikosRig выявил критические уязвимости в Hermes Agent от Nous Research, которые позволяют обходить механизмы подтверждения команд. Инцидент вызвал дискуссию о том, можно ли считать интерфейсные запросы (human-in-the-loop) полноценной защитой или же они являются лишь элементом удобства пользователя.

Что произошло

В ходе исследования были обнаружены способы обхода запросов на одобрение действий через инъекции в «умный» режим подтверждения, выполнение произвольного кода через startup-хуки и использование ошибок парсинга shell-команд. Несмотря на выявленные векторы атак, компания Nous Research пересмотрела политику безопасности, переклассифицировав обход подтверждений из критических уязвимостей в «эвристические методы», что привело к закрытию соответствующих отчетов.

Контекст

Проблема затрагивает фундаментальный принцип проектирования ИИ-агентов: использование механизмов human-in-the-loop (HITL) для контроля действий в терминале. Существует технический разрыв между интерфейсным подтверждением (approval prompt) и реальной программной изоляцией (sandboxing), где безопасность обеспечивается на уровне среды исполнения, а не на уровне взаимодействия с пользователем.

Почему это важно для индустрии

Инцидент провоцирует спор о стандартах безопасности в индустрии ИИ. Разные компании выбирают разные подходы к классификации подобных багов: одни (как Anthropic с Claude Code) рассматривают это через призму безопасности, другие (как Nous Research) склонны классифицировать это как особенности работы модели. Это может замедлить внедрение стандартов CVE для LLM-агентов и вынудить разработчиков внедрять более сложные и ресурсоемкие решения по изоляции, такие как Docker, gVisor или Firecracker, даже для простых инструментов.

Почему это важно для пользователей

Пользователям ИИ-агентов с доступом к системным ресурсам нельзя полагаться исключительно на всплывающие окна подтверждения. Злоумышленник может манипулировать контекстом или использовать обходные пути в shell-командах для скрытого выполнения действий. Для безопасной работы крайне важно использовать агентов только в изолированных средах, таких как контейнеры или виртуальные машины.

Что пока неизвестно / ограничения

В дискуссии сохраняется различие в подходах между техническими специалистами, фокусирующимися на методах обхода (инъекции, ошибки парсинга), и бизнес-сообществом, которое делает упор на стандартизацию ответственности и классификации уязвимостей.

Источники

NikosRig Disclosure

Автор

Look at AI, редакция