DIRECT: новый фреймворк для точного 3D-ориентированного встраивания объектов в изображения

Представлен фреймворк DIRECT (Decomposed Injection for Reference Composition and Target-integration), который позволяет вставлять объекты в изображения с точным управлением их 3D-позой. В отличие от традиционных методов 2D-инпейнтинга, этот подход обеспечивает высокую реалистичность и физическую согласованность сцены.

Что произошло

Разработан метод DIRECT, использующий концепцию «визуального триплета»: внешность объекта, его 3D-геометрию (через рендер прокси) и контекст целевой сцены. Техническая реализация базируется на интеграции моделей FLUX.1-Fill-dev, SigLIP2 и TRELLIS для обеспечения контроля над позированием и качеством текстур.

Контекст

Стандартные методы 2D-инпейнтинга часто сталкиваются с проблемой несоответствия позы и геометрии при попытке добавить новый объект в существующую сцену. Переход к 3D-aware композитингу позволяет решать эти задачи на уровне понимания пространственной структуры изображения.

Почему это важно для индустрии

Для индустрии это означает переход от простого заполнения областей к полноценному управляемому 3D-композитингу. Это открывает возможности для создания высокоточных инструментов дизайна, автоматизированных пайплайнов для CGI и генеративного искусства, где контроль над геометрией становится частью процесса создания контента.

Почему это важно для пользователей

Пользователи и дизайнеры получают инструмент, позволяющий не просто «приклеивать» объект к фону, а задавать его точный поворот и положение в пространстве, сохраняя при этом естественность освещения и детализацию. На текущем этапе DIRECT подходит для высококачественного offline-продакшена, например, для генерации ассетов в кино.

Что пока неизвестно / ограничения

Текущая архитектура представляет собой сложный многоэтапный пайплайн с использованием нескольких тяжелых моделей, что создает вызовы для production-эксплуатации из-за высокой задержки (latency).

Источники

Автор

Look at AI, редакция