Представлена Whisper-Podlodka-Turbo — оптимизированная версия модели whisper-large-v3-turbo от OpenAI, дообученная специально для работы с русским языком. Модель показывает значительное улучшение точности распознавания и устойчивости к шуму по сравнению с базовой версией.

image

Что произошло

Разработчики выпустили Whisper-Podlodka-Turbo, которая демонстрирует снижение показателя Word Error Rate (WER) до 5.22% на датасете Common Voice 11 Ru, в то время как у базовой версии этот показатель составляет 6.63%. Кроме того, модель эффективно работает в условиях низкого соотношения сигнал/шум (SNR = 2 dB). Для улучшения качества текста в процесс обучения были интегрированы механизмы автоматической пунктуации и капитализации с использованием моделей ruT5 и Qwen2.5-14B-Instruct, что также помогает снизить количество галлюцинаций на неречевых сегментах.

Контекст

Проект базируется на архитектуре whisper-large-v3-turbo, которая обеспечивает баланс между качеством транскрибации и скоростью инференса. Использование гибридного подхода, сочетающего ASR и LLM для постобработки, позволяет решить типичные проблемы универсальных моделей при работе с локальными языковыми парами.

Почему это важно для индустрии

Появление таких узкоспециализированных fine-tuned моделей подтверждает глобальный тренд на отказ от попыток масштабирования универсальных SOTA-моделей в пользу оптимизированных решений под конкретные языки и условия эксплуатации. Это снижает порог входа для создания качественных локальных ASR-сервисов и позволяет небольшим командам конкурировать с крупными универсальными API.

Почему это важно для пользователей

Пользователи, занимающиеся транскрибацией подкастов, видео или аудиозаписей на русском языке, смогут получать более чистый и структурированный текст. Модель обеспечит правильную расстановку знаков препинания и заглавных букв, а также минимизирует появление «мусорного» текста во время пауз в речи.

Источники

Автор

Look at AI, редакция