Вышел open-source инструмент clawmark — CLI-утилита на языке Rust, предназначенная для проведения объективного A/B тестирования файлов инструкций CLAUDE.md с использованием бенчмарка SWE-bench Lite.

image

Что произошло

Разработчик emiliolugo представил clawmark, который позволяет сравнивать эффективность двух различных вариантов конфигураций инструкций (CLAUDE.md). Процесс включает локальный запуск Claude, генерацию патчей и их последующую автоматическую оценку через официальный SWE-bench harness в среде Docker. По завершении инструмент формирует сводный отчет с результатами тестирования.

Контекст

Традиционно настройка системных промптов и файлов CLAUDE.md для ИИ-агентов опирается на интуицию разработчика, что затрудняет объективную оценку качества. clawmark переводит этот процесс в инженерную плоскость, используя стандартизированные задачи SWE-bench Lite для проверки реальной способности агента решать программные проблемы, а не просто следовать текстовым указаниям.

Почему это важно для индустрии

Инструмент способствует переходу от интуитивного промпт-инжиниринга к методологии eval-driven development. Это позволяет разработчикам систем на базе LLM внедрять научный подход к оптимизации поведения агентов, создавая надежную инфраструктуру для автоматизированного тестирования и верификации системных инструкций.

Почему это важно для пользователей

Разработчики и инженеры получают возможность быстро и эффективно проверять гипотезы по улучшению поведения своих ИИ-агентов. Использование clawmark минимизирует риск деградации качества кода при обновлении промптов и позволяет избегать регрессий, заменяя ручное тестирование автоматизированным процессом с эмпирическими данными.

Источники

Автор

Look at AI, редакция