🛠 Вышел clawmark — CLI-инструмент на языке Rust для проведения A/B тестирования файлов CLAUDE.md.

Инструмент позволяет сравнивать эффективность различных конфигураций инструкций на наборе задач SWE-bench Lite.

🌍 Позволяет разработчикам систем на базе LLM научно обоснованно оптимизировать системные промпты, используя стандартизированные бенчмарки вместо интуитивной настройки.

👤 Дает возможность быстро проверить, какая версия инструкций для ИИ-агента лучше справляется с реальными задачами по программированию.

Источник 1: https://github.com/emiliolugo/clawmark