LoomVideo: новая компактная мультимодальная модель для генерации и редактирования видео

Исследователи из Пекинского университета и Alibaba представили LoomVideo — мультимодальную модель с 5 млрд параметров, которая объединяет возможности генерации и редактирования видео. Благодаря инновационным архитектурным решениям, модель обеспечивает высокую скорость работы и точность выполнения инструкций, предлагая эффективную альтернативу тяжеловесным нейросетям.

Что произошло

Команда разработчиков из Пекинского университета и Alibaba представила LoomVideo. Модель с 5B параметрами базируется на гибридной архитектуре, объединяющей Wan 2.2 (TI2V 5B) и Qwen3-VL-8B через механизм Deepstack Injection. Технология поддерживает генерацию видео по текстовому описанию, редактирование по инструкциям, а также работу с эталонными изображениями и видео. Ключевым достижением является использование метода Scale-and-Add Conditioning вместо стандартной конкатенации токенов, что позволило ускорить инференс в 5.4–6.2 раза.

Контекст

Традиционные модели для генерации видео часто требуют огромного количества параметров (13B и более) и значительных вычислительных мощностей. Основным методом управления контекстом в таких моделях является конкатенация токенов, которая замедляет процесс обработки данных. LoomVideo предлагает переход к более компактным и оптимизированным архитектурам, фокусируясь на эффективности механизмов кондиционирования данных.

Почему это важно для индустрии

Для индустрии ИИ это означает сдвиг фокуса с простого масштабирования количества параметров (scaling laws) в сторону оптимизации архитектуры. Использование Scale-and-Add Conditioning позволяет создавать высокопроизводительные модели меньшего размера, которые могут конкурировать с гигантами в специализированных задачах. Это открывает путь к более дешевому и быстрому видео-продакшену в реальном времени и делает высококачественную генерацию доступной для локального развертывания на менее дорогом оборудовании.

Почему это важно для пользователей

Пользователи получают возможность создавать и редактировать видео значительно быстрее и эффективнее. Компании в сферах e-commerce и fashion смогут использовать подобные инструменты для автоматизированного создания контента (например, виртуальной примерки одежды или смены фона) с минимальными затратами ресурсов. Для конечных потребителей это означает появление более доступных и быстрых инструментов для создания видеоконтента в реальном времени.

Источники

LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing (Project Page)
[arXiv:2606.06042 [cs.CV] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing](https://arxiv.org/abs/2606.06042)

Автор

Look at AI, редакция