Представлен LiveEdit — инновационный фреймворк, позволяющий редактировать видеопоток в реальном времени с помощью диффузионных моделей на базе Wan2.1. Благодаря применению трехэтапной дистилляции и системы кэширования масок, система достигает скорости 12.66 FPS, обеспечивая интерактивность, недоступную ранее для подобных методов.

image
image

Что произошло

Разработан LiveEdit, который переводит процесс редактирования видео из режима пакетной постобработки в режим интерактивного стриминга. Система использует трехэтапную дистилляцию: от мощной двунаправленной модели к эффективному однонаправленному стриминговому редактору, что сокращает процесс генерации всего до 4 шагов. Для оптимизации вычислений внедрен AR-ориентированный Mask Cache, позволяющий повторно использовать токены масок для неизменных областей фона.

Контекст

Традиционные методы редактирования видео на базе диффузионных моделей обычно требуют значительного времени на обработку готовых файлов (post-processing), что исключает возможность взаимодействия с видео «на лету». Проект базируется на архитектуре Wan2.1 и нацелен на решение проблем задержки (latency) и стабильности фона при пошаговой обработке кадров.

Почему это важно для индустрии

Для индустрии это означает переход от пакетной обработки к интерактивному редактированию потока, что критически важно для развития технологий дополненной реальности (AR) и систем дополненной реальности. Технология открывает путь к созданию новых SDK для стриминговых платформ и инструментов контент-мейкеров, работающих с AI-эффектами в реальном времени.

Почему это важно для пользователей

Пользователи и стримеры получают возможность мгновенно изменять визуальные параметры видео во время прямых эфиров — например, корректировать освещение, менять цвет одежды или применять стилистические фильтры с минимальной задержкой. Это делает процесс создания качественного интерактивного контента доступным без использования дорогостоящих студийных решений.

Что пока неизвестно / ограничения

Несмотря на впечатляющие метрики, проект имеет исследовательский статус (представлен на ECCV 2026), что требует осторожности при планировании его интеграции в коммерческие enterprise-системы.

Источники

Автор

Look at AI, редакция