🤖 Boson AI представила Higgs Audio v3 TTS (4B) — открытую разговорную модель синтеза речи.
Модель поддерживает 102 языка и позволяет управлять эмоциями, стилем и звуковыми эффектами через специальные токены, включая zero-shot клонирование голоса.
🌍 Это открывает путь к созданию естественных AI-агентов с поддержкой паралингвистики (смех, вздохи).
👤 Пользователи смогут создавать человечные голосовые интерфейсы, управляя интонацией через текст.
Источник 1: https://huggingface.co/bosonai/higgs-audio-v3-tts-4b
