TencentHY представила UniRL для мультимодального RL-обучения

Компания Tencent Hunyuan выпустила универсальный фреймворк UniRL, позволяющий дообучать мультимодальные модели через обучение с подкреплением.

Автор Sergey KostenchukОпубликовано 2026-06-10Обновлено 2026-06-10

2026-06-10 Исследования

🌟 TencentHY представила UniRL для мультимодального RL-обучения

Tencent Hunyuan (TencentHY) выпустила UniRL — универсальный фреймворк для мультимодального обучения с подкреплением (RL). Система объединяет процессы генерации, оценки и обновления политики для text2image, text/image2video, LLM и диффузионных моделей. В релиз вошли алгоритмы Flow-DPPO для устойчивого обучения диффузионных моделей и DRPO для стабильного обучения текстовых LLM в режиме FP8.

🌍 UniRL унифицирует процесс RL для различных типов генеративных моделей, устраняя необходимость в специализированных стеках под каждую модальность. Это упрощает масштабирование исследований в области мультимодального интеллекта и позволяет эффективно применять методы RL (вроде GRPO) к видео- и изобразительным моделям.

👤 Возможность эффективного обучения моделей в низком качестве точности (FP8) без потери устойчивости делает продвинутое RL-дообучение доступнее для исследователей и разработчиков с ограниченными вычислительными ресурсами.

Источник 1: https://unirl-project.github.io/unirl/ Источник 2: https://arxiv.org/pdf/2606.09821

Источники