🎨 Wan-Streamer v0.1 — интерактивный ИИ в реальном времени
Представлена мультимодальная модель Wan-Streamer v0.1 для аудио-видео взаимодействия. В отличие от каскадных систем, она использует единый Transformer для обработки токенов текста, аудио и видео, что позволяет достичь задержки около 550 мс при 25 fps.
🌍 Переход к единому эндо-ту-энд решению снижает задержку и ошибки накопления, что критично для создания цифровых аватаров нового поколения.
👤 Это позволит общаться с ИИ-собеседниками голосом и видео почти без пауз, без ощущения роботизированного ожидания.
Источник 1: https://arxiv.org/abs/2606.25041 Источник 2: https://wan-streamer.com/
