LoomVideo: новая мультимодальная модель для генерации и редактирования видео

Исследователи из Пекинского университета и Alibaba представили LoomVideo — модель с 5 млрд параметров, ускоряющую инференс в 5.4–6.2 раза.

2026-06-08 Multimodal_AI

🎨 Представлена LoomVideo — мультимодальная модель для генерации и редактирования видео от Пекинского университета и Alibaba.

Архитектура на 5 млрд параметров объединяет Wan 2.2 (TI2V 5B) и Qwen3-VL-8B через механизмы Deepstack Injection и Scale-and-Add. Это позволяет ускорить инференс в 5.4–6.2 раза по сравнению с обычным методом конкатенации токенов.

🌍 Переход к компактным моделям (5B) вместо тяжелых (13B+) и использование эффективного кондиционирования радикально снижает вычислительные затраты, открывая путь к видео-продакшену в реальном времени.

👤 Вы сможете создавать и редактировать видео гораздо быстрее, используя менее ресурсоемкие модели, которые превосходят гигантов в таких задачах, как e-commerce и fashion-генерация.

Источник 1: http://msalab-pku.github.io/projects/LoomVideo/index.html Источник 2: https://arxiv.org/abs/2606.06042

Sources