Новости

OpenMOSS представила MOSS-Video-Preview для понимания видео в реальном времени

Команда OpenMOSS разработала мультимодальную модель MOSS-Video-Preview, способную обрабатывать видеопоток с крайне низкой задержкой на базе Llama-3.2-Vision.

Автор Sergey KostenchukОпубликовано 2026-06-10Обновлено 2026-06-10

2026-06-10 Кодинг Meta

Расширенный разбор этой новости

Открыть подробную версию с контекстом, источниками и объяснением сути новости.

Подробно

Overall architecture of MOSS-Video-Preview — MOSS-Video-Preview Architecture Источник

🛠 OpenMOSS представила MOSS-Video-Preview — мультимодальную модель для понимания видео в реальном времени.

Архитектура на базе Llama-3.2-Vision использует gated cross-attention и streaming inference для обработки видеопотока с минимальной задержкой.

🌍 Это путь к интерактивным ИИ-ассистентам, реагирующим на видео в реальном времени без буферизации.

👤 ИИ сможет «видеть» и обсуждать происходящее в прямом эфире почти мгновенно.

Источник 1: https://github.com/OpenMOSS/MOSS-Video-Preview Источник 2: https://huggingface.co/collections/OpenMOSS-Team/moss-video-preview

Источники

Сюжет

Команда OpenMOSS разработала мультимодальную модель MOSS-Video-Preview, способную обрабатывать видеопоток с крайне низкой задержкой на базе Llama-3.2-Vision. Переход от пакетной обработки к нативному realtime-пониманию через архитектуру cross-attention открывает путь к созданию по-настоящему интерактивных ИИ-ассистентов.