Представлена SwiftVR — инновационная генеративная модель, обеспечивающая высококачественную реставрацию видео в реальном времени. Технология позволяет достигать разрешения 1080p при ~26 FPS на потребительских GPU, таких как RTX 5090, и поддерживать 4K на профессиональных картах H100 со скоростью 14 FPS.

Что произошло
Разработан проект SwiftVR на базе архитектуры Wan2.2-TI2V-5B, который использует три ключевые технические инновации: Mask-free shifted-window self-attention (MFSWA) для ускорения работы трансформера в 1.62 раза, Restoration-aware Autoencoder (ReAE) для минимизации задержек декодирования и протокол причинно-следственного потокового восстановления (causal chunk-wise streaming).
Контекст
Традиционные диффузионные модели для апскейла высокого разрешения часто сталкиваются с критической проблемой вычислительной сложности и нехватки видеопамяти (OOM). Это обусловлено использованием тяжелых 3D-VAE и методов тайлового декодирования, которые препятствуют работе в режиме реального времени.
Почему это важно для индустрии
SwiftVR предлагает эффективную альтернативу существующим методам, решая проблему квадратичной сложности внимания при высоком разрешении. Это задает новый стандарт оптимизации для диффузионных моделей видео и может привести к переходу индустрии от тяжелых 3D-VAE к легковесным специализированным автоэнкодерам.
Почему это важно для пользователей
Технология делает высококачественное восстановление видео доступным на домашних игровых ПК, а не только на серверных кластерах. Это открывает новые возможности для использования ИИ-апскейла в стриминге, видеоиграх и локальных инструментах для видеоредакторов.
Что пока неизвестно / ограничения
Несмотря на высокую производительность, первые пользовательские тесты указывают на неоднозначное качество визуальных результатов и необходимость доработки точности восстановления.
Источники
Автор
Look at AI, редакция
