Представлен LiveEdit — инновационный фреймворк, позволяющий редактировать видеопоток в реальном времени с помощью диффузионных моделей на базе Wan2.1. Благодаря применению трехэтапной дистилляции и системы кэширования масок, система достигает скорости 12.66 FPS, обеспечивая интерактивность, недоступную ранее для подобных методов.

Что произошло
Разработан LiveEdit, который переводит процесс редактирования видео из режима пакетной постобработки в режим интерактивного стриминга. Система использует трехэтапную дистилляцию: от мощной двунаправленной модели к эффективному однонаправленному стриминговому редактору, что сокращает процесс генерации всего до 4 шагов. Для оптимизации вычислений внедрен AR-ориентированный Mask Cache, позволяющий повторно использовать токены масок для неизменных областей фона.
Контекст
Традиционные методы редактирования видео на базе диффузионных моделей обычно требуют значительного времени на обработку готовых файлов (post-processing), что исключает возможность взаимодействия с видео «на лету». Проект базируется на архитектуре Wan2.1 и нацелен на решение проблем задержки (latency) и стабильности фона при пошаговой обработке кадров.
Почему это важно для индустрии
Для индустрии это означает переход от пакетной обработки к интерактивному редактированию потока, что критически важно для развития технологий дополненной реальности (AR) и систем дополненной реальности. Технология открывает путь к созданию новых SDK для стриминговых платформ и инструментов контент-мейкеров, работающих с AI-эффектами в реальном времени.
Почему это важно для пользователей
Пользователи и стримеры получают возможность мгновенно изменять визуальные параметры видео во время прямых эфиров — например, корректировать освещение, менять цвет одежды или применять стилистические фильтры с минимальной задержкой. Это делает процесс создания качественного интерактивного контента доступным без использования дорогостоящих студийных решений.
Что пока неизвестно / ограничения
Несмотря на впечатляющие метрики, проект имеет исследовательский статус (представлен на ECCV 2026), что требует осторожности при планировании его интеграции в коммерческие enterprise-системы.
Источники
- LiveEdit: Towards Real-Time Diffusion-Based Streaming Video Editing (GitHub)
- LiveEdit Project Page | ECCV 2026
- LiveEdit Checkpoints on Hugging Face
Автор
Look at AI, редакция
