🛠 OpenMOSS представила MOSS-Video-Preview — мультимодальную модель для понимания видео в реальном времени.

Архитектура на базе Llama-3.2-Vision использует gated cross-attention и streaming inference для обработки видеопотока с минимальной задержкой.

🌍 Это путь к интерактивным ИИ-ассистентам, реагирующим на видео в реальном времени без буферизации.

👤 ИИ сможет «видеть» и обсуждать происходящее в прямом эфире почти мгновенно.

Источник 1: https://github.com/OpenMOSS/MOSS-Video-Preview Источник 2: https://huggingface.co/collections/OpenMOSS-Team/moss-video-preview