Представлена мультимодальная модель OmniVideo-7B

Разработана модель OmniVideo-7B на базе Qwen2.5-Omni, способная в реальном времени обрабатывать текст, изображения, аудио и видео.

Автор Sergey KostenchukОпубликовано 2026-06-21Обновлено 2026-06-22

2026-06-21 Исследования HuggingFace

🤖 Представлена мультимодальная модель OmniVideo-7B

На базе Qwen2.5-Omni разработана модель, способная обрабатывать текст, изображения, аудио и видео в режиме реального времени. Благодаря архитектуре Thinker-Talker и методу TMRoPE, OmniVideo-7B поддерживает потоковую обработку и генерацию озвученных ответов.

🌍 Появление специализированных моделей с архитектурой Thinker-Talker и качественными датасетами типа OmniVideo-100K задает новый стандарт в области аудиовизуального понимания (AV reasoning), преодолевая разрыв между звуком и видео.

👤 Это шаг к созданию полноценных ИИ-ассистентов, которые могут «видеть» и «слышать» мир одновременно, понимая контекст видео и отвечая голосом в реальном времени.

Источник 1: https://huggingface.co/MiG-NJU/OmniVideo-7B_Qwen2.5-Omni Источник 2: https://arxiv.org/abs/2606.14702

Источники