🎧 SwanSphere: генерация пространственного аудио в реальном времени
Группа SwanAIGC (ByteDance и Университет Чжэцзян) представила SwanSphere — систему потоковой генерации пространственного аудио, принятую на ICML 2026. Она использует архитектуру Causal Autoregressive Diffusion Transformer для создания качественного звука на основе видео или текстовых запросов.
🌍 Решается проблема задержки при инференсе, что открывает путь к созданию иммерсивного VR/AR контента с генеративным звуком в реальном времени.
👤 Технология позволит видео и виртуальным мирам звучать объемно и синхронно с картинкой, даже если звук создается нейросетью на лету.
Источник 1: https://arxiv.org/abs/2605.30940 Источник 2: https://swanaigc.github.io/
