Компания Zyphra выпустила ZONOS2 — второе поколение модели текстового синтеза речи (TTS), использующее архитектуру Mixture of Experts (MoE) для достижения баланса между студийным качеством звука и минимальной задержкой при генерации.


Что произошло
Модель ZONOS2 имеет 8 миллиардов параметров, из которых 900 миллионов являются активными в процессе работы. Она обеспечивает генерацию аудио с частотой дискретизации 44,1 кГц через Descript Audio Codec (DAC) в режиме реального времени. Одной из ключевых технических особенностей является использование байтовой токенизации (raw UTF-8 bytes), что позволяет модели поддерживать множество языков без необходимости в сложной фонетической предобработке и эффективно справляться с переключением языков (code-switching).
Контекст
В области синтеза речи разработчики традиционно сталкиваются с компромиссом между качеством клонирования голоса и скоростью работы (latency). Использование архитектуры MoE и переход к end-to-end байтовым моделям позволяют отойти от классических многоэтапных конвейеров в пользу более гибких и быстрых систем.
Почему это важно для индустрии
Выход ZONOS2 в сегменте open-source значительно снижает порог входа для создания продвинутых голосовых продуктов, избавляя разработчиков от зависимости от проприетарных API и огромных облачных бюджетов. Архитектура MoE позволяет масштабировать возможности синтеза без пропорционального роста вычислительных затрат на каждый запрос, что открывает путь к массовому внедрению высококачественных голосовых интерфейсов.
Почему это важно для пользователей
Пользователи и разработчики получают доступ к инструменту для создания максимально естественных цифровых голосов с поддержкой русского, английского и других языков на уровне студийного качества. Модель поддерживает режимы stable и expressive, позволяя выбирать между чистотой сигнала и эмоциональной выразительностью, что критично для создания живых AI-агентов.
Что пока неизвестно / ограничения
Для полноценного использования в production-среде требуются дополнительные данные о стабильности работы под нагрузкой, точной стоимости инференса и фактических показателях latency в различных сценариях.
Источники
Автор
Look at AI, редакция
