Метод Modality Forcing для генерации изображений и карт глубины

Представлен метод Modality Forcing, позволяющий дообучать диффузионные трансформеры для одновременной генерации RGB-изображений и карт глубины.

Автор Sergey KostenchukОпубликовано 2026-06-15Обновлено 2026-06-15

2026-06-15 Исследования HuggingFace

🖼 Модульная генерация изображений и глубины

Представлен метод Modality Forcing, позволяющий дообучать диффузионные трансформеры (DiT) для одновременной генерации изображений и карт глубины. Благодаря независимому зашумлению модальностей RGB и Depth, модель на базе FLUX.2 может выполнять задачи joint generation, image-to-depth и depth-to-image.

🌍 Метод показывает, что генерация изображений масштабируема для обучения пространственному восприятию. Использование разреженных данных о глубине упрощает процесс обучения и делает его более применимым к реальным сценариям.

👤 Это открывает путь к созданию точных 3D-сцен, управлению геометрией объектов и высококачественному восстановлению глубины из обычных фотографий с помощью мощных генеративных моделей.

Источник 1: https://modality-forcing.github.io/ Источник 2: https://huggingface.co/bartduis/modality_forcing

Источники