🖼 Модульная генерация изображений и глубины
Представлен метод Modality Forcing, позволяющий дообучать диффузионные трансформеры (DiT) для одновременной генерации изображений и карт глубины. Благодаря независимому зашумлению модальностей RGB и Depth, модель на базе FLUX.2 может выполнять задачи joint generation, image-to-depth и depth-to-image.
🌍 Метод показывает, что генерация изображений масштабируема для обучения пространственному восприятию. Использование разреженных данных о глубине упрощает процесс обучения и делает его более применимым к реальным сценариям.
👤 Это открывает путь к созданию точных 3D-сцен, управлению геометрией объектов и высококачественному восстановлению глубины из обычных фотографий с помощью мощных генеративных моделей.
Источник 1: https://modality-forcing.github.io/ Источник 2: https://huggingface.co/bartduis/modality_forcing
