Компания Tencent Hunyuan (TencentHY) выпустила UniRL — новый универсальный фреймворк для обучения с подкреплением (RL), способный работать с различными модальностями, включая текст, изображения и видео, в рамках единого цикла генерации и обновления политики.
Что произошло
В рамках релиза UniRL представлены два ключевых алгоритма. Flow-DPPO предназначен для диффузионных моделей и демонстрирует высокую устойчивость к катастрофическому забыванию на таких моделях, как SD3.5 и FLUX.1. Алгоритм DRPO ориентирован на текстовые LLM и обеспечивает стабильность процесса обучения при использовании низкой точности FP8 благодаря применению гладкого квадратичного регуляризатора вместо жестких масок.
Контекст
Традиционно обучение с подкреплением для разных типов генеративных моделей требовало создания специализированных программных стеков под каждую конкретную модальность. UniRL стремится унифицировать этот процесс, позволяя применять продвинутые методы RL, такие как GRPO, к широкому спектру моделей, включая видео- и изобразительные системы.
Почему это важно для индустрии
Для индустрии UniRL означает упрощение масштабирования исследований в области мультимодального интеллекта. Унификация RL-цикла устраняет необходимость в разработке отдельных инфраструктурных решений под каждую модальность, а поддержка современных движков, таких как SGLang, vLLM-Omni, Ray и FSDP2, делает фреймворк готовым к интеграции в серьезные R&D процессы.
Почему это важно для пользователей
Разработчики и исследователи получают инструмент, который делает продвинутое RL-дообучение более доступным. Благодаря стабильной работе в режиме FP8, для проведения эффективных экспериментов больше не требуются огромные вычислительные кластеры, что значительно снижает порог входа и ускоряет циклы создания специализированных мультимодальных агентов.
Что пока неизвестно / ограничения
Позиции экспертов варьируются от инженерных аспектов интеграции с существующими библиотеками до регуляторных рисков, связанных с интеллектуальной собственностью.
Источники
Автор
Look at AI, редакция