Команда Kandinsky Lab из Сбера представила KVAE-Audio — высокоэффективный аудио-токенизатор с открытой лицензией MIT, способный обеспечивать экстремальное сжатие звукового сигнала без потери качества.

image
image
image

Что произошло

Сбер выпустил KVAE-Audio, модель, работающую с частотой дискретизации 48 кГц и обеспечивающую временное сжатие в 960 раз. Архитектура использует 64-канальное латентное пространство и периодическую функцию активации Snake для точного моделирования аудиосигналов. Модель оптимизирована для обучения генеративных диффузионных моделей, таких как Text-to-Audio (T2A) и Text-to-Audio-Video (T2AV).

Контекст

Разработка направлена на создание более компактного и «диффузионно-пригодного» латентного пространства. В отличие от тяжеловесных решений, таких как SAME-L от Stability AI, KVAE-Audio имеет значительно меньшее количество параметров (166.9M против 852.1M), при этом демонстрируя превосходство по метрикам генерации над такими моделями, как MMAudio (Sony) и DACVAE (Meta).

Почему это важно для индустрии

Выход KVAE-Audio радикально снижает порог входа и стоимость обучения мультимодальных моделей. Использование компактного латентного пространства упрощает процесс прототипирования и позволяет стартапам с ограниченными вычислительными ресурсами создавать качественные аудио-генеративные системы. В долгосрочной перспективе технология может стать индустриальным стандартом для эффективного аудио-токенирования.

Почему это важно для пользователей

Разработчики получают мощный инструмент с открытым исходным кодом, который требует меньше вычислительных ресурсов (VRAM) для инференса и обучения. Это позволяет интегрировать высококачественную генерацию звука в современные мультимодальные пайплайны, включая создание аудиоконтента и видео с озвучкой, с меньшими затратами времени и денег.

Источники

Автор

Look at AI, редакция