Исследователи из Microsoft Research представили Mirage — архитектуру Latent Spatial Memory, которая радикально меняет способ работы видеомоделей мира (Video World Models). Технология позволяет хранить информацию о 3D-сценах напрямую в пространстве диффузионных латентных представлений, что значительно повышает эффективность генерации видео.

image
image
image

Что произошло

Разработанная Microsoft Research архитектура Mirage позволяет управлять 3D-сценами в латентном пространстве, минуя ресурсозатратный цикл рендеринга и перекодирования в RGB-пиксели. Согласно результатам тестов, скорость генерации видео увеличилась в 10,57 раза, а потребление памяти для 3D-кеша сократилось в 55 раз. При этом качество визуализации осталось на высоком уровне, что подтверждается показателем WorldScore 70.36.

Контекст

Современные видеомодели мира часто сталкиваются с проблемой вычислительной сложности при попытке поддерживать пространственную консистентность в 3D-сценах. Традиционные методы, работающие с RGB-облаками точек, требуют огромных ресурсов на рендеринг и хранение данных для обеспечения стабильности картинки.

Почему это важно для индустрии

Для индустрии это означает устранение ключевого узкого места — сложности поддержания пространственной связности. Переход от обработки RGB-данных к управлению латентными токенами делает создание сложных, длинных и стабильных видеомиров значительно дешевле и быстрее, снижая барьер вычислительной сложности для разработчиков.

Почему это важно для пользователей

Для конечных пользователей это шаг к появлению по-настоящему быстрых и качественных ИИ-генераторов видео. Технология позволит строить сложные 3D-пространства без «галлюцинаций» и задержек, что критически важно для создания интерактивного VR-контента, высококачественных симуляций и игровых миров нового поколения.

Источники

Автор

Look at AI, редакция