Lift4D: создание полноценных 4D-моделей из обычного видео

Представлен фреймворк Lift4D, позволяющий выполнять высококачественную 4D-реконструкцию динамических объектов на основе одного монокулярного видео с использованием методов оптимизации во время инференса (test-time optimization).

Что произошло

Разработан фреймворк Lift4D, который использует деформируемые гауссианы (Gaussian Splatting) и диффузионные априорные знания для восстановления геометрии и внешнего вида объектов. Система способна восстанавливать детали даже в тех областях, которые были скрыты (окклюзии) или не попадали в кадр, объединяя одноразовую 3D-оценку с процессами оптимизации в реальном времени.

Контекст

Традиционно создание качественного 4D-контента требует использования дорогостоящего оборудования и специализированных сенсоров глубины. Существующие методы часто сталкиваются с нехваткой данных для обучения сложных моделей, что ограничивает возможности реконструкции динамических сцен из стандартных видеоматериалов.

Почему это важно для индустрии

Lift4D решает фундаментальную проблему дефицита данных для обучения 4D-моделей, позволяя использовать обычные видео вместо специализированных датчиков. Это открывает путь к созданию качественного 3D-контента без использования сложного оборудования и может стать стандартом для пайплайнов генерации видео и 3D-контента в будущем.

Почему это важно для пользователей

Обычные пользователи теперь могут создавать полноценные объемные 4D-модели объектов, просто снимая их на камеру смартфона, даже если объект постоянно движется или перекрывает части самого себя. Это радикально снижает порог входа для создания сложного цифрового контента.

Что пока неизвестно / ограничения

На текущем этапе технология находится в стадии Proof-of-Concept (PoC) и имеет высокую вычислительную сложность, что влечет за собой задержки (latency) и высокое потребление видеопамяти (VRAM) при использовании методов оптимизации во время инференса.

Источники

Автор

Look at AI, редакция