SwanSphere: генерация пространственного аудио в реальном времени

Команда SwanAIGC представила SwanSphere — систему потоковой генерации объемного звука на основе видео или текста с использованием диффузионных трансформеров.

2026-06-08 Multimodal_AI

🎧 SwanSphere: генерация пространственного аудио в реальном времени

Группа SwanAIGC (ByteDance и Университет Чжэцзян) представила SwanSphere — систему потоковой генерации пространственного аудио, принятую на ICML 2026. Она использует архитектуру Causal Autoregressive Diffusion Transformer для создания качественного звука на основе видео или текстовых запросов.

🌍 Решается проблема задержки при инференсе, что открывает путь к созданию иммерсивного VR/AR контента с генеративным звуком в реальном времени.

👤 Технология позволит видео и виртуальным мирам звучать объемно и синхронно с картинкой, даже если звук создается нейросетью на лету.

Источник 1: https://arxiv.org/abs/2605.30940 Источник 2: https://swanaigc.github.io/

Sources