🛠 Мониторинг взлома вознаграждения в RL
Вышел open-source инструмент rewardspy (автор AvAdiii) для отладки и визуализации функций вознаграждения в RL. Библиотека обнаруживает «взлом вознаграждения» (reward hacking) через терминальный дашборд, отслеживая аномалии и коллапс дисперсии.
🌍 Помогает бороться с «законом Гудхарта», позволяя автоматизировать аудит обучения и предотвращать деградацию агентов в CI/CD.
👤 Заменяет print(reward) на полноценную статистическую диагностику для понимания поведения агента.
Источник 1: https://github.com/AvAdiii/rewardspy
