🛡 AgentToolBench-Code: новый бенчмарк безопасности для AI-агентов
Выпущен AgentToolBench-Code v0.0.1 — открытый бенчмарк для выявления скрытых уязвимостей в безопасности AI-агентов, пишущих код. Тесты на 16 сценариях показали, что Claude 3.5 Sonnet лучше распознает подозрительные паттерны, чем Haiku 3.5, но обе модели уязвимы к слепому выполнению команд.
🌍 Бенчмарк требует внедрения guardrails на уровне среды выполнения.
👤 Разработчикам стоит использовать инструменты контроля для предотвращения атак.
Источник 1: https://gist.github.com/allenwu-blip/fa2bd0218b93a1d7aef765817e3c6608