SwanSphere: потоковая генерация пространственного аудио от ByteDance и Университета Чжэцзян

Исследовательская группа SwanAIGC, объединяющая специалистов ByteDance и Университета Чжэцзян, представила SwanSphere — инновационную систему для потоковой генерации пространственного аудио. Проект, принятый на конференцию ICML 2026, использует архитектуру причинного авторегрессионного диффузионного трансформера для создания высококачественного объемного звука в реальном времени на основе текстовых запросов или панорамного видеоряда.

Что произошло

Разработчики представили SwanSphere, которая решает задачу синхронной генерации звука и видео. Система опирается на архитектуру Causal Autoregressive Diffusion Transformer и использует стратегию обучения SVAC (Spatial Video-Audio Contrastive) для точной синхронизации аудио и видео. Кроме того, для повышения качества восприятия пространственности звука применяется метод многоцелевой онлайн-оптимизации прямых предпочтений (ODPO).

Контекст

Традиционно при генерации объемного звука разработчики сталкиваются с жестким компромиссом между высоким качеством аудио и задержкой (latency) при инференсе. SwanSphere предлагает новый архитектурный подход, превращая сложную генерацию пространственного звука в эффективную потоковую задачу, что является важным шагом для мультимодального генеративного ИИ.

Почему это важно для индустрии

Для индустрии это означает преодоление фундаментального барьера задержки, что открывает возможности для создания по-настоящему иммерсивного VR/AR контента с генеративным звуком, работающим в реальном времени. Технология закладывает новую архитектурную базу для мультимодальных исследований и может стать стандартом для генерации foley-звуков в пайплайнах создания видеоконтента.

Почему это важно для пользователей

Для конечных пользователей это означает качественный скачок в потреблении цифрового контента: видео и виртуальные миры смогут звучать объемно и синхронно с картинкой, даже если звук создается нейросетью «на лету» по текстовому описанию или на основе движущегося видеоряда.

Что пока неизвестно / ограничения

На текущий момент эксперты выражают скепсис относительно практической готовности технологии к продакшн-деплою из-за отсутствия открытого исходного кода и детальных технических метрик инференса, таких как конкретные показатели задержки (latency) и пропускной способности (throughput).

Источники

Автор

Look at AI, редакция