Вышел open-source инструмент clawmark — CLI-утилита на языке Rust, предназначенная для проведения объективного A/B тестирования файлов инструкций CLAUDE.md с использованием бенчмарка SWE-bench Lite.
Что произошло
Разработчик emiliolugo представил clawmark, который позволяет сравнивать эффективность двух различных вариантов конфигураций инструкций (CLAUDE.md). Процесс включает локальный запуск Claude, генерацию патчей и их последующую автоматическую оценку через официальный SWE-bench harness в среде Docker. По завершении инструмент формирует сводный отчет с результатами тестирования.
Контекст
Традиционно настройка системных промптов и файлов CLAUDE.md для ИИ-агентов опирается на интуицию разработчика, что затрудняет объективную оценку качества. clawmark переводит этот процесс в инженерную плоскость, используя стандартизированные задачи SWE-bench Lite для проверки реальной способности агента решать программные проблемы, а не просто следовать текстовым указаниям.
Почему это важно для индустрии
Инструмент способствует переходу от интуитивного промпт-инжиниринга к методологии eval-driven development. Это позволяет разработчикам систем на базе LLM внедрять научный подход к оптимизации поведения агентов, создавая надежную инфраструктуру для автоматизированного тестирования и верификации системных инструкций.
Почему это важно для пользователей
Разработчики и инженеры получают возможность быстро и эффективно проверять гипотезы по улучшению поведения своих ИИ-агентов. Использование clawmark минимизирует риск деградации качества кода при обновлении промптов и позволяет избегать регрессий, заменяя ручное тестирование автоматизированным процессом с эмпирическими данными.
Источники
Автор
Look at AI, редакция
