Zyphra представила ZONOS2: высококачественный real-time TTS на базе...

Компания Zyphra выпустила ZONOS2 — второе поколение модели текстового синтеза речи (TTS), использующее архитектуру Mixture of Experts (MoE) для достижения баланса между студийным качеством звука и минимальной задержкой при генерации.

Что произошло

Модель ZONOS2 имеет 8 миллиардов параметров, из которых 900 миллионов являются активными в процессе работы. Она обеспечивает генерацию аудио с частотой дискретизации 44,1 кГц через Descript Audio Codec (DAC) в режиме реального времени. Одной из ключевых технических особенностей является использование байтовой токенизации (raw UTF-8 bytes), что позволяет модели поддерживать множество языков без необходимости в сложной фонетической предобработке и эффективно справляться с переключением языков (code-switching).

Контекст

В области синтеза речи разработчики традиционно сталкиваются с компромиссом между качеством клонирования голоса и скоростью работы (latency). Использование архитектуры MoE и переход к end-to-end байтовым моделям позволяют отойти от классических многоэтапных конвейеров в пользу более гибких и быстрых систем.

Почему это важно для индустрии

Выход ZONOS2 в сегменте open-source значительно снижает порог входа для создания продвинутых голосовых продуктов, избавляя разработчиков от зависимости от проприетарных API и огромных облачных бюджетов. Архитектура MoE позволяет масштабировать возможности синтеза без пропорционального роста вычислительных затрат на каждый запрос, что открывает путь к массовому внедрению высококачественных голосовых интерфейсов.

Почему это важно для пользователей

Пользователи и разработчики получают доступ к инструменту для создания максимально естественных цифровых голосов с поддержкой русского, английского и других языков на уровне студийного качества. Модель поддерживает режимы stable и expressive, позволяя выбирать между чистотой сигнала и эмоциональной выразительностью, что критично для создания живых AI-агентов.

Что пока неизвестно / ограничения

Для полноценного использования в production-среде требуются дополнительные данные о стабильности работы под нагрузкой, точной стоимости инференса и фактических показателях latency в различных сценариях.

Источники

Автор

Look at AI, редакция