Представлен Vox — приложение для macOS и Windows, позволяющее использовать возможности локального искусственного интеллекта для превращения речи в чистый текст без отправки данных в облако.

image

Что произошло

Разработчики представили Vox, инструмент для локальной диктовки, работающий на macOS и Windows. Приложение использует модели Whisper или NVIDIA Parakeet для транскрибации аудио, а также Gemma 4 или Apple Intelligence для постобработки текста, удаляя слова-паразиты и исправляя ошибки. Весь процесс выполняется локально с использованием аппаратного ускорения Apple Neural Engine или DirectX 12.

Контекст

Проект является практическим воплощением концепции Edge AI, где сложные вычисления переносятся с удаленных серверов непосредственно на пользовательские устройства. Это позволяет использовать связку специализированных моделей распознавания речи (ASR) и малых языковых моделей (SLM) для решения повседневных задач в закрытом контуре.

Почему это важно для индустрии

Появление Vox демонстрирует зрелость стека Edge AI и жизнеспособность гибридного подхода, объединяющего ASR и локальные LLM. Это задает тренд на снижение зависимости разработчиков от облачных API и открывает путь к созданию новых вертикальных продуктов с нулевыми затратами на облачную инфраструктуру и минимальной задержкой (latency).

Почему это важно для пользователей

Пользователи получают инструмент, позволяющий превращать речь в структурированный текст (email, заметки, код) со скоростью речи (~150 WPM), экономя до 60 минут в день. Главным преимуществом является полная приватность данных и отсутствие необходимости платить за подписки на облачные сервисы.

Источники

Автор

Look at AI, редакция