🛠 Вышел clawmark — CLI-инструмент на языке Rust для проведения A/B тестирования файлов CLAUDE.md.
Инструмент позволяет сравнивать эффективность различных конфигураций инструкций на наборе задач SWE-bench Lite.
🌍 Позволяет разработчикам систем на базе LLM научно обоснованно оптимизировать системные промпты, используя стандартизированные бенчмарки вместо интуитивной настройки.
👤 Дает возможность быстро проверить, какая версия инструкций для ИИ-агента лучше справляется с реальными задачами по программированию.
Источник 1: https://github.com/emiliolugo/clawmark
