Представлена Wan-Streamer v0.1 — новая foundation-модель, обеспечивающая бесшовное аудио-видео взаимодействие. В отличие от традиционных каскадных систем, Wan-Streamer использует единый Transformer для одновременной обработки текста, аудио и видео токенов, что позволяет добиться естественной синхронизации мимики и жестов при минимальной задержке.

image
image

Что произошло

Разработчики представили Wan-Streamer v0.1, которая реализует end-to-end мультимодальный инференс. Система работает с общей задержкой взаимодействия около 550 мс при частоте 25 fps, поддерживая full-duplex режим. В качестве когнитивной основы используется модель семейства Qwen (2.5 / 3).

Контекст

Ранее для создания интерактивных ассистентов использовались каскадные системы (pipeline), состоящие из разрозненных модулей: VAD (Voice Activity Detection), ASR (Automatic Speech Recognition), LLM и TTS (Text-to-Speech). Такая архитектура неизбежно приводит к накоплению ошибок (compounding errors) между компонентами и увеличению общей задержки ожидания.

Почему это важно для индустрии

Для индустрии это означает фундаментальный сдвиг от цепочек разрозненных моделей к единым решениям. Это радикально снижает latency и устраняет проблему накопления ошибок, что является критическим условием для создания коммерчески жизнеспособных цифровых аватаров и высококачественных ИИ-ассистентов нового поколения.

Почему это важно для пользователей

Для конечных пользователей это означает появление ИИ-собеседников, с которыми можно общаться голосом и видео практически без пауз. Общение становится естественным, без характерного для текущих роботов ощущения затянутого ожидания ответа и рассинхронизации визуальных реакций с речью.

Что пока неизвестно / ограничения

На текущем этапе Wan-Streamer v0.1 представлена как технологическое доказательство концепции (PoC); веса модели и публичный API на данный момент отсутствуют, что ограничивает ее немедленное применение в enterprise-секторе.

Источники

Автор

Look at AI, редакция