Компактная модель Flux.2-klein, изначально созданная для быстрого редактирования изображений, способна выполнять задачи видеомонтажа. Благодаря интеграции с методами компьютерного зрения, такими как расчет оптического потока, модель позволяет переносить изменения между кадрами, создавая эффект видеогенерации без необходимости обучения специализированных тяжелых архитектур.

image

Что произошло

Разработчики обнаружили, что модель Flux.2-klein можно использовать в качестве неявной видеомодели. Процесс включает обработку первого кадра, расчет оптического потока для определения движения в последующих кадрах и использование масок окклюзии для устранения визуальных артефактов. Замаскированные области заполняются с помощью Flux по текстовому промпту, что обеспечивает консистентное нанесение правок на видеопоследовательности.

Контекст

Метод не вводит новые обучаемые веса для обеспечения временной согласованности. Вместо этого он использует существующие способности Flux.2-klein к inpainting и редактированию, накладывая их на геометрическую структуру видео через классические алгоритмы Computer Vision. Это позволяет превратить быструю модель image-to-image в инструмент для работы с видео без использования тяжелых spatio-temporal трансформеров.

Почему это важно для индустрии

Это демонстрирует возможность эффективной адаптации компактных моделей (4B/9B) для задач видеомонтажа через гибридные подходы. Такой метод снижает зависимость индустрии от разработки и обучения монолитных, ресурсоемких видеомоделей, предлагая альтернативу в виде комбинации классического CV и легкого диффузионного инференса.

Почему это важно для пользователей

Пользователи могут получить доступ к базовому видеоредактированию на потребительском оборудовании через существующие воркфлоу, такие как ComfyUI. Это открывает возможности для быстрого прототипирования видеоэффектов на локальных GPU, используя легкие и быстрые модели вместо тяжелых облачных решений.

Что пока неизвестно / ограничения

Данный подход является инженерным решением (hack), а не фундаментальным прорывом в архитектуре видеогенерации. Текущие решения носят демонстрационный характер и требуют доработки пайплайнов для обеспечения стабильного качества в полноценном продакшене.

Источники

Автор

Look at AI, редакция