🤖 Qwen3-ForcedAligner-0.6B: высокоточное выравнивание аудио и текста
Выпущена модель Qwen3-ForcedAligner-0.6B-hf, предназначенная для forced alignment. Модель на базе 0.9B параметров работает в неавторегрессионном (NAR) режиме, что позволяет предсказывать таймкоды для слов на 11 языках, включая русский. Она совместима с любыми ASR-системами и оптимизирована через torch.compile.
🌍 Переход к неавторегрессионным методам позволяет значительно ускорить создание субтитров и индексацию аудио, обеспечивая точность выше, чем у традиционных E2E моделей.
👤 Инструмент делает работу с аудио (подписи, поиск по звуку) быстрее и точнее, позволяя получать идеальные таймкоды на основе любых готовых транскрипций.
Источник 1: https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B-hf
