Исследователи представили метод Modality Forcing, который позволяет эффективно дообучать диффузионные трансформеры (DiT), такие как FLUX.2, для совместной генерации RGB-изображений и карт глубины. Благодаря использованию независимого зашумления различных модальностей, модель способна решать задачи от генерации по тексту до восстановления геометрии из существующих фотографий.

Что произошло
Разработан метод Modality Forcing, использующий независимое зашумление (independent noise) для различных модальностей (RGB и Depth). Это позволяет одной архитектуре на базе FLUX.2 выполнять три типа задач: joint generation (текст -> RGB-D), image-to-depth (картинка -> глубина) и depth-to-image (глубина -> картинка). Метод продемонстрировал SOTA-результаты на 4 из 5 бенчмарков по предсказанию глубины.
Контекст
Традиционные методы обучения пространственному восприятию часто требуют использования плотных (dense) массивов данных о глубине, что затрудняет масштабирование. Modality Forcing решает эту проблему, используя разреженные (sparse) данные, что делает процесс дообучения существующих SOTA-моделей генерации изображений более доступным и эффективным.
Почему это важно для индустрии
Метод доказывает, что генерация изображений является масштабируемой задачей для обучения пространственному восприятию (spatial perception). Использование разреженных данных упрощает процесс обучения и делает его применимым к реальным наборам данных. Это открывает путь к созданию мультимодальных DiT, которые станут основой для будущих world models, способных понимать и воспроизводить геометрию физического мира.
Почему это важно для пользователей
Пользователи получают инструмент для превращения обычных 2D-фотографий в качественные карты глубины и создания управляемых 3D-сцен на базе мощных open-source моделей. Это позволяет использовать генеративные нейросети не только для визуального контента, но и для задач точного управления геометрией объектов и восстановления 3D-структур.
Источники
Автор
Look at AI, редакция
