Компания Fish Audio представила S2.1 Pro — новую флагманскую модель синтеза речи, поддерживающую 83 языка в рамках единой архитектуры. До конца июля 2026 года разработчикам предоставляется бесплатный доступ к API через специальную модель s2.1-pro-free для тестирования и прототипирования.

image

Что произошло

Выпущенная модель S2.1 Pro демонстрирует значительное улучшение производительности: задержка (TTFA) была снижена до 70–90 мс, а пропускная способность увеличилась вдвое. Это достигнуто благодаря использованию кастомных ядер fish-scales-ops, оптимизированных под архитектуры NVIDIA Hopper и Blackwell, а также внедрению специализированных библиотек FP8 GEMM и FlashAttention.

Контекст

Разработка фокусируется на экстремально низкой задержке, что критически важно для создания интерактивных систем. Использование современных GPU-стеков и специализированных форматов (FP8) позволяет эффективно масштабировать высококачественный TTS (Text-to-Speech) и переводить его из дорогостоящей инфраструктурной задачи в доступный компонент.

Почему это важно для индустрии

Для индустрии ИИ это означает снижение порога входа для создания real-time голосовых агентов. Оптимизация под современные архитектуры NVIDIA задает новый стандарт эффективности, позволяя использовать высококачественный синтез речи в высоконагруженных системах без колоссальных затрат на инфраструктуру.

Почему это важно для пользователей

Разработчики и создатели контента могут бесплатно протестировать одну из лучших моделей синтеза речи с крайне низкой задержкой. Это открывает возможности для мгновенного прототипирования мультиязычных интерфейсов, умных диалоговых помощников и автоматизированной озвучки контента на десятках языков.

Что пока неизвестно / ограничения

Бесплатный доступ к API является временным и ограничен концом июля 2026 года. Также существует риск аппаратной привязки (vendor lock-in) к архитектурам NVIDIA из-за глубокой оптимизации под их специфические ядра.

Источники

Автор

Look at AI, редакция