🌟 TencentHY представила UniRL для мультимодального RL-обучения
Tencent Hunyuan (TencentHY) выпустила UniRL — универсальный фреймворк для мультимодального обучения с подкреплением (RL). Система объединяет процессы генерации, оценки и обновления политики для text2image, text/image2video, LLM и диффузионных моделей. В релиз вошли алгоритмы Flow-DPPO для устойчивого обучения диффузионных моделей и DRPO для стабильного обучения текстовых LLM в режиме FP8.
🌍 UniRL унифицирует процесс RL для различных типов генеративных моделей, устраняя необходимость в специализированных стеках под каждую модальность. Это упрощает масштабирование исследований в области мультимодального интеллекта и позволяет эффективно применять методы RL (вроде GRPO) к видео- и изобразительным моделям.
👤 Возможность эффективного обучения моделей в низком качестве точности (FP8) без потери устойчивости делает продвинутое RL-дообучение доступнее для исследователей и разработчиков с ограниченными вычислительными ресурсами.
Источник 1: https://unirl-project.github.io/unirl/ Источник 2: https://arxiv.org/pdf/2606.09821