Компания Resemble AI выпустила Chatterbox Multilingual v3 — новую open-source модель для синтеза речи на базе архитектуры Llama (0.5B параметров), которая поддерживает 25 языков и диалектов. Ключевой технологической особенностью релиза стала интеграция PerTh — системы нейронных водяных знаков, обеспечивающих устойчивость маркировки контента к попыткам подделки.

Что произошло
Resemble AI представила модель Chatterbox Multilingual v3, использующую легковесную архитектуру Llama с 0.5 миллиардами параметров. Модель поддерживает zero-shot клонирование голоса по коротким образцам и позволяет управлять эмоциональной окраской речи. Технически решение демонстрирует высокую производительность с коэффициентом скорости воспроизведения (RTF) около 5 на базе ускорителя H100. Главным нововведением является технология PerTh, которая внедряет водяные знаки, устойчивые к сжатию в форматах MP3 и Opus, а также к редактированию и ресемплированию аудио.
Контекст
Современные стандарты безопасности в области ИИ, такие как EU AI Act, требуют обязательной маркировки синтетического контента для борьбы с распространением дипфейков. Использование архитектуры Llama в задачах TTS позволяет эффективно переносить знания из больших языковых моделей в область синтеза речи, обеспечивая более естественное звучание при компактном размере модели.
Почему это важно для индустрии
Для индустрии ИИ выпуск Chatterbox Multilingual v3 означает появление качественного open-source инструмента с встроенной защитой, который упрощает соблюдение регуляторных требований к маркировке контента. Интеграция PerTh может способствовать установлению новых стандартов безопасности, где нейронные водяные знаки станут обязательным слоем в потребительских AI-продуктах и коммерческих TTS-движках.
Почему это важно для пользователей
Разработчики и создатели контента получают доступ к мощной модели для локального тестирования и создания озвучки с эмоциональной окраской и клонированием голоса. Однако стоит учитывать, что качество синтеза русского языка на данный момент находится в среднем сегменте (CER 1-5%) с возможными ошибками в ударениях, а для некоторых языков, таких как корейский и вьетнамский, модель пока не подходит для промышленного использования.
Что пока неизвестно / ограничения
Текущие проблемы с качеством просодии в русском языке и незрелость языковых пакетов для ряда регионов.
Источники
Автор
Look at AI, редакция
