Команда Kling представила OmniDirector — инновационный фреймворк, позволяющий клонировать сложные движения камеры из существующих видео. Вместо традиционного использования текстовых параметров или простых команд, система использует визуальную «сетку движений» (camera grid), что радикально меняет подход к управлению динамикой видеогенерации.

image
image

Что произошло

Разработанный командой Kling фреймворк OmniDirector внедряет метод кодирования траекторий в виде camera grid. Это позволяет обучать модель на миллионах пар «сетка-видео» без необходимости в наличии специализированных кросс-парных данных. Для обеспечения координации между персонажами, их действиями и движением камеры используется иерархический агент расширения промптов (PE Agent), построенный на базе мультимодальных диффузионных трансформеров (MMDiT).

Контекст

До появления OmniDirector основной проблемой при обучении систем управления камерой был критический дефицит специализированных датасетов с точными параметрами движения. Переход от параметрического управления к визуально-структурному кодированию через сетки движений позволяет обходить нехватку данных, используя массив непарных видеоматериалов для захвата кинематографических приемов.

Почему это важно для индустрии

Технология решает фундаментальную проблему нехватки обучающих данных для управления камерой, позволяя переносить сложные приемы вроде Dolly Zoom или Bullet Time на новые сцены. Это открывает путь к созданию многоплановых (multi-shot) видео с единой логикой повествования и закладывает основу для появления полноценных AI-режиссерских платформ, где управление мультимодальными агентами происходит через визуальные слои.

Почему это важно для пользователей

Для создателей контента это означает переход от текстового описания к «режиссерскому» контролю: теперь можно буквально скопировать профессиональное движение камеры из любого видео и применить его к своей генерации. Это значительно снижает порог входа в профессиональный видеопродакшн, позволяя прототипировать сложные сцены без глубоких знаний в области 3D-анимации.

Что пока неизвестно / ограничения

На текущем этапе OmniDirector является исследовательским фреймворком и не готов к полноценному промышленному использованию (production) из-за отсутствия публичного API, неопределенности вычислительных затрат и недостатка данных о задержках при работе.

Источники

Автор

Look at AI, редакция