Исследователь безопасности NikosRig выявил критические уязвимости в Hermes Agent от Nous Research, которые позволяют обходить механизмы подтверждения команд. Инцидент вызвал дискуссию о том, можно ли считать интерфейсные запросы (human-in-the-loop) полноценной защитой или же они являются лишь элементом удобства пользователя.

Что произошло
В ходе исследования были обнаружены способы обхода запросов на одобрение действий через инъекции в «умный» режим подтверждения, выполнение произвольного кода через startup-хуки и использование ошибок парсинга shell-команд. Несмотря на выявленные векторы атак, компания Nous Research пересмотрела политику безопасности, переклассифицировав обход подтверждений из критических уязвимостей в «эвристические методы», что привело к закрытию соответствующих отчетов.
Контекст
Проблема затрагивает фундаментальный принцип проектирования ИИ-агентов: использование механизмов human-in-the-loop (HITL) для контроля действий в терминале. Существует технический разрыв между интерфейсным подтверждением (approval prompt) и реальной программной изоляцией (sandboxing), где безопасность обеспечивается на уровне среды исполнения, а не на уровне взаимодействия с пользователем.
Почему это важно для индустрии
Инцидент провоцирует спор о стандартах безопасности в индустрии ИИ. Разные компании выбирают разные подходы к классификации подобных багов: одни (как Anthropic с Claude Code) рассматривают это через призму безопасности, другие (как Nous Research) склонны классифицировать это как особенности работы модели. Это может замедлить внедрение стандартов CVE для LLM-агентов и вынудить разработчиков внедрять более сложные и ресурсоемкие решения по изоляции, такие как Docker, gVisor или Firecracker, даже для простых инструментов.
Почему это важно для пользователей
Пользователям ИИ-агентов с доступом к системным ресурсам нельзя полагаться исключительно на всплывающие окна подтверждения. Злоумышленник может манипулировать контекстом или использовать обходные пути в shell-командах для скрытого выполнения действий. Для безопасной работы крайне важно использовать агентов только в изолированных средах, таких как контейнеры или виртуальные машины.
Что пока неизвестно / ограничения
В дискуссии сохраняется различие в подходах между техническими специалистами, фокусирующимися на методах обхода (инъекции, ошибки парсинга), и бизнес-сообществом, которое делает упор на стандартизацию ответственности и классификации уязвимостей.
Источники
Автор
Look at AI, редакция
