OmniVideo-7B: Новая мультимодальная модель для real-time...

Представлена мультимодальная модель OmniVideo-7B на базе Qwen2.5-Omni, способная в режиме реального времени обрабатывать текст, изображения, аудио и видео. Благодаря инновационной архитектуре Thinker-Talker и методу TMRoPE, модель обеспечивает потоковую обработку данных и генерацию мгновенных голосовых ответов, стремясь к созданию полноценных ИИ-ассистентов нового поколения.

Что произошло

Разработчики выпустили модель OmniVideo-7B с открытыми весами (лицензия Apache-2.0), которая объединяет визуальное восприятие, аудио-контекст и голосовую генерацию. В основе обучения лежит новый датасет OmniVideo-100K, ориентированный на построение цепочек доказательств для глубокого аудиовизуального понимания. Модель поддерживает потоковую обработку (streaming), что позволяет ей реагировать на изменения в видеопотоке практически мгновенно.

Контекст

В отличие от традиционных систем, использующих связку из отдельных моделей (ASR для звука, VLM для видео и TTS для голоса), OmniVideo-7B представляет собой единую архитектуру. Это позволяет преодолеть разрыв между звуком и видеорядом, обеспечивая более точное понимание контекста, например, связи между жестами человека и его речью.

Почему это важно для индустрии

Для индустрии это важный шаг к созданию специализированных агентов с высокой степенью интерактивности. Появление качественных датасетов, таких как OmniVideo-100K, и архитектур типа Thinker-Talker задает новые стандарты в области AV reasoning. Открытость прототипа и использование лицензии Apache-2.0 создают базу для быстрого прототипирования сложных мультимодальных систем на высокопроизводительных кластерах.

Почему это важно для пользователей

Для конечных пользователей это означает приближение эры цифровых собеседников, которые могут не просто описывать происходящее на экране, а полноценно взаимодействовать с видеопотоком. Это открывает возможности для создания интеллектуальных ассистентов, способных «видеть» и «слышать» мир одновременно, обеспечивая бесшовный опыт общения голосом в реальном времени.

Что пока неизвестно / ограничения

Основным барьером для широкого внедрения являются экстремально высокие требования к вычислительным ресурсам: для обработки 60 секунд видео в формате BF16 требуется около 60 ГБ VRAM, что ограничивает использование модели мощными GPU уровня A100 или H100.

Источники

Автор

Look at AI, редакция