🛡 LLM-CTF Benchmark: оценка ИИ-агентов в кибербезопасности
Представлен специализированный набор данных для тестирования LLM-агентов в задачах кибербезопасности типа Capture The Flag (CTF). Исследование включает 2639 точек данных для оценки навыков планирования и использования инструментов (tool calling) в условиях, близких к реальным атакам.
🌍 Это позволяет разработчикам фокусироваться на создании надежных ИИ-агентов с развитыми навыками автономного планирования, что критично для индустрии кибербезопасности.
👤 Прогресс в оценке помогает понять, насколько современные модели близки к роли полноценных специалистов по безопасности (Red Teaming).
Источник 1: https://proceedings.neurips.cc/paper_files/paper/2024/hash/69d97a6493fbf016fff0a751f253ad18-Abstract-Abstract-Datasets_and_Benchmarks_Track.html Источник 2: https://github.com/NYU-LLM-CTF/NYU_CTF_Bench
