🎧 Сбер опубликовал KVAE-Audio с открытым исходным кодом

Команда Kandinsky Lab выпустила KVAE-Audio — аудио-токенизатор с открытым исходным кодом под лицензией MIT. Модель работает на частоте 48 кГц и обеспечивает временное сжатие в 960 раз, представляя звук в компактном латентном пространстве из 64 каналов.

🌍 KVAE-Audio становится эффективной альтернативой тяжеловесным решениям вроде SAME-L от Stability AI, обеспечивая сопоставимое качество при значительно меньшем количестве параметров (166.9M против 852.1M).

👤 Разработчики получают качественный инструмент для создания аудиоконтента, требующий гораздо меньше вычислительных ресурсов.

Источник 1: https://habr.com/ru/companies/sberbank/articles/1053410/ Источник 2: https://github.com/kandinskylab/kvae-audio