Представлена Wan-Streamer v0.1 — новая foundation-модель, обеспечивающая бесшовное аудио-видео взаимодействие. В отличие от традиционных каскадных систем, Wan-Streamer использует единый Transformer для одновременной обработки текста, аудио и видео токенов, что позволяет добиться естественной синхронизации мимики и жестов при минимальной задержке.


Что произошло
Разработчики представили Wan-Streamer v0.1, которая реализует end-to-end мультимодальный инференс. Система работает с общей задержкой взаимодействия около 550 мс при частоте 25 fps, поддерживая full-duplex режим. В качестве когнитивной основы используется модель семейства Qwen (2.5 / 3).
Контекст
Ранее для создания интерактивных ассистентов использовались каскадные системы (pipeline), состоящие из разрозненных модулей: VAD (Voice Activity Detection), ASR (Automatic Speech Recognition), LLM и TTS (Text-to-Speech). Такая архитектура неизбежно приводит к накоплению ошибок (compounding errors) между компонентами и увеличению общей задержки ожидания.
Почему это важно для индустрии
Для индустрии это означает фундаментальный сдвиг от цепочек разрозненных моделей к единым решениям. Это радикально снижает latency и устраняет проблему накопления ошибок, что является критическим условием для создания коммерчески жизнеспособных цифровых аватаров и высококачественных ИИ-ассистентов нового поколения.
Почему это важно для пользователей
Для конечных пользователей это означает появление ИИ-собеседников, с которыми можно общаться голосом и видео практически без пауз. Общение становится естественным, без характерного для текущих роботов ощущения затянутого ожидания ответа и рассинхронизации визуальных реакций с речью.
Что пока неизвестно / ограничения
На текущем этапе Wan-Streamer v0.1 представлена как технологическое доказательство концепции (PoC); веса модели и публичный API на данный момент отсутствуют, что ограничивает ее немедленное применение в enterprise-секторе.
Источники
- Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models (arXiv)
- Wan Streamer Official Website
Автор
Look at AI, редакция
