Google представила Gemini 3.5 Live Translate для потокового...

Google анонсировала Gemini 3.5 Live Translate — новую аудиомодель, способную осуществлять потоковый перевод речи с задержкой всего в несколько секунд. Технология поддерживает более 70 языков и сохраняет естественную интонацию, темп и высоту голоса говорящего, обеспечивая бесшовное общение.

Что произошло

Компания Google выпустила Gemini 3.5 Live Translate, которая переводит речь в режиме реального времени, минимизируя паузы в разговоре. Инструментарий доступен разработчикам через Gemini Live API и Google AI Studio в режиме Public Preview. В мобильных приложениях Google Translate для Android уже реализован специальный режим listening mode, позволяющий использовать динамик телефона для прослушивания перевода.

Контекст

В отличие от традиционных методов пошагового (turn-based) перевода, где пользователю нужно дождаться окончания фразы, новая архитектура использует непрерывный поток (continuous stream) аудио-инференса. Это позволяет минимизировать задержку (latency) и сохранять паралингвистические характеристики речи, такие как эмоциональный окрас и просодические элементы.

Почему это важно для индустрии

Для индустрии ИИ это означает переход от дискретных запросов к полноценному потоковому взаимодействию. Наличие интеграций с платформами LiveKit, Agora и Pipecat позволяет разработчикам быстро внедрять SOTA-решения в существующие коммуникационные сервисы. Это создает базу для создания нативных AI-агентов и стандартизирует streaming-first подход в голосовых интерфейсах.

Почему это важно для пользователей

Обычные пользователи получают возможность использовать смартфон как персонального синхронного переводчика, который понимает не только смысл слов, но и эмоции собеседника через интонацию. Это делает международное общение почти таким же естественным, как разговор на родном языке, практически стирая языковые барьеры в цифровой среде.

Что пока неизвестно / ограничения

При внедрении в корпоративном сегменте существуют риски, связанные с безопасностью и управлением потоковыми данными, что требует дополнительного внимания при масштабировании решений.

Источники

Google Blog

Автор

Look at AI, редакция