JoyAI-Echo: генерация длинных видео до 5 минут

🎬 JoyAI-Echo: генерация длинных видео до 5 минут

Команда Echo (Joy Future Academy, JD) представила JoyAI-Echo — диффузионную модель для создания аудиовизуальных видеороликов большой длительности. Система использует Cross-Modal Audio-Visual Memory для предотвращения «дрейфа идентичности» персонажей и голосов, а оптимизированный пайплайн (DMD-дистилляция) ускоряет генерацию в 7.5 раз.

🌍 Модель решает проблему потери консистентности при увеличении длительности видео, приближая AI-генерацию к профессиональным инструментам видеопроизводства.

👤 Теперь можно создавать не короткие клипы, а цельные истории с одними и теми же героями, управляя процессом через текстовые команды.

Источник 1: http://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/ Источник 2: https://github.com/jd-opensource/JoyAI-Echo

Sources