🛡 AgentToolBench-Code: новый бенчмарк безопасности для AI-агентов

Выпущен AgentToolBench-Code v0.0.1 — открытый бенчмарк для выявления скрытых уязвимостей в безопасности AI-агентов, пишущих код. Тесты на 16 сценариях показали, что Claude 3.5 Sonnet лучше распознает подозрительные паттерны, чем Haiku 3.5, но обе модели уязвимы к слепому выполнению команд.

🌍 Бенчмарк требует внедрения guardrails на уровне среды выполнения.

👤 Разработчикам стоит использовать инструменты контроля для предотвращения атак.

Источник 1: https://gist.github.com/allenwu-blip/fa2bd0218b93a1d7aef765817e3c6608