MolmoMotion: новая визуально-языковая модель для прогнозирования...

Allen Institute for AI (Ai2) представил MolmoMotion — визуально-языковую модель (VLM) с 4 млрд параметров, способную предсказывать 3D-траектории движения объектов на основе коротких RGB-видео и текстовых инструкций.

Что произошло

Модель MolmoMotion обрабатывает видеоданные, чтобы предсказать будущее положение выбранных точек в пространстве (в метрах) на горизонте до 30 кадров. Обучение проводилось на специализированном наборе данных MolmoMotion-1M, который включает 1.16 млн видеороликов с текстовыми описаниями действий.

Контекст

В отличие от традиционных подходов, которые работают в 2D-пиксельном пространстве, MolmoMotion переводит задачу прогнозирования в физически осмысленное 3D-пространство. Это позволяет модели учитывать реальные физические параметры движения, а не просто предсказывать смещение пикселей.

Почему это важно для индустрии

Для индустрии это означает переход к более надежным системам планирования манипуляций в робототехнике и повышение физической правдоподобности в генерации видео. На тестах MolmoMotion показала значительно меньшую ошибку смещения (ADE) по сравнению с существующими решениями, такими как Wan2.2 или ObjectForesight.

Почему это важно для пользователей

Разработчики и исследователи получили доступ к открытой модели (4B параметров) на Hugging Face, что позволяет быстро прототипировать системы управления роботами, понимающие естественный язык, или создавать гиперреалистичные видео без эффекта «плавающих» объектов.

Что пока неизвестно / ограничения

Существуют вопросы относительно легитимности сбора столь массивного объема видеоданных для обучения, а также для промышленного внедрения требуются дополнительные данные о задержках (latency) и стоимости инференса.

Источники

Автор

Look at AI, редакция