🤖 Zyphra представила ZONOS2 — второе поколение модели текстового синтеза речи (TTS) на базе архитектуры Mixture of Experts (MoE).

Модель с 8 млрд параметров (900 млн активных) обеспечивает генерацию аудио высокого качества (44,1 кГц) в реальном времени через Descript Audio Codec (DAC). Использование байтовой токенизации позволяет эффективно поддерживать множество языков без явной фонетизации.

🌍 ZONOS2 решает компромисс между качеством клонирования голоса и задержкой (latency) за счет разреженной архитектуры MoE, делая высококачественный real-time TTS доступным для open-source сообщества.

👤 Вы можете создавать максимально естественные цифровые голоса, поддерживающие русский и английский языки на уровне студийного качества в режиме реального времени.

Источник 1: https://www.zyphra.com/our-work/zonos2 Источник 2: https://github.com/Zyphra/ZONOS2