LLM-CTF Benchmark: оценка ИИ-агентов в кибербезопасности

Представлен новый бенчмарк LLM-CTF, содержащий 2639 точек данных для тестирования навыков планирования и использования инструментов ИИ-агентами в задачах офенсивной безопасности.

Автор Sergey KostenchukОпубликовано 2026-06-23Обновлено 2026-06-25

2026-06-23 Исследования

🛡 LLM-CTF Benchmark: оценка ИИ-агентов в кибербезопасности

Представлен специализированный набор данных для тестирования LLM-агентов в задачах кибербезопасности типа Capture The Flag (CTF). Исследование включает 2639 точек данных для оценки навыков планирования и использования инструментов (tool calling) в условиях, близких к реальным атакам.

🌍 Это позволяет разработчикам фокусироваться на создании надежных ИИ-агентов с развитыми навыками автономного планирования, что критично для индустрии кибербезопасности.

👤 Прогресс в оценке помогает понять, насколько современные модели близки к роли полноценных специалистов по безопасности (Red Teaming).

Источник 1: https://proceedings.neurips.cc/paper_files/paper/2024/hash/69d97a6493fbf016fff0a751f253ad18-Abstract-Abstract-Datasets_and_Benchmarks_Track.html Источник 2: https://github.com/NYU-LLM-CTF/NYU_CTF_Bench

Источники