Представлена Whisper-Podlodka-Turbo — оптимизированная версия модели whisper-large-v3-turbo от OpenAI, дообученная специально для работы с русским языком. Модель показывает значительное улучшение точности распознавания и устойчивости к шуму по сравнению с базовой версией.

Что произошло
Разработчики выпустили Whisper-Podlodka-Turbo, которая демонстрирует снижение показателя Word Error Rate (WER) до 5.22% на датасете Common Voice 11 Ru, в то время как у базовой версии этот показатель составляет 6.63%. Кроме того, модель эффективно работает в условиях низкого соотношения сигнал/шум (SNR = 2 dB). Для улучшения качества текста в процесс обучения были интегрированы механизмы автоматической пунктуации и капитализации с использованием моделей ruT5 и Qwen2.5-14B-Instruct, что также помогает снизить количество галлюцинаций на неречевых сегментах.
Контекст
Проект базируется на архитектуре whisper-large-v3-turbo, которая обеспечивает баланс между качеством транскрибации и скоростью инференса. Использование гибридного подхода, сочетающего ASR и LLM для постобработки, позволяет решить типичные проблемы универсальных моделей при работе с локальными языковыми парами.
Почему это важно для индустрии
Появление таких узкоспециализированных fine-tuned моделей подтверждает глобальный тренд на отказ от попыток масштабирования универсальных SOTA-моделей в пользу оптимизированных решений под конкретные языки и условия эксплуатации. Это снижает порог входа для создания качественных локальных ASR-сервисов и позволяет небольшим командам конкурировать с крупными универсальными API.
Почему это важно для пользователей
Пользователи, занимающиеся транскрибацией подкастов, видео или аудиозаписей на русском языке, смогут получать более чистый и структурированный текст. Модель обеспечит правильную расстановку знаков препинания и заглавных букв, а также минимизирует появление «мусорного» текста во время пауз в речи.
Источники
Автор
Look at AI, редакция
