🎨 Представлена LoomVideo — мультимодальная модель для генерации и редактирования видео от Пекинского университета и Alibaba.
Архитектура на 5 млрд параметров объединяет Wan 2.2 (TI2V 5B) и Qwen3-VL-8B через механизмы Deepstack Injection и Scale-and-Add. Это позволяет ускорить инференс в 5.4–6.2 раза по сравнению с обычным методом конкатенации токенов.
🌍 Переход к компактным моделям (5B) вместо тяжелых (13B+) и использование эффективного кондиционирования радикально снижает вычислительные затраты, открывая путь к видео-продакшену в реальном времени.
👤 Вы сможете создавать и редактировать видео гораздо быстрее, используя менее ресурсоемкие модели, которые превосходят гигантов в таких задачах, как e-commerce и fashion-генерация.
Источник 1: http://msalab-pku.github.io/projects/LoomVideo/index.html Источник 2: https://arxiv.org/abs/2606.06042