Allen Institute for AI (Ai2) представил MolmoMotion — визуально-языковую модель (VLM) с 4 млрд параметров, способную предсказывать 3D-траектории движения объектов на основе коротких RGB-видео и текстовых инструкций.


Что произошло
Модель MolmoMotion обрабатывает видеоданные, чтобы предсказать будущее положение выбранных точек в пространстве (в метрах) на горизонте до 30 кадров. Обучение проводилось на специализированном наборе данных MolmoMotion-1M, который включает 1.16 млн видеороликов с текстовыми описаниями действий.
Контекст
В отличие от традиционных подходов, которые работают в 2D-пиксельном пространстве, MolmoMotion переводит задачу прогнозирования в физически осмысленное 3D-пространство. Это позволяет модели учитывать реальные физические параметры движения, а не просто предсказывать смещение пикселей.
Почему это важно для индустрии
Для индустрии это означает переход к более надежным системам планирования манипуляций в робототехнике и повышение физической правдоподобности в генерации видео. На тестах MolmoMotion показала значительно меньшую ошибку смещения (ADE) по сравнению с существующими решениями, такими как Wan2.2 или ObjectForesight.
Почему это важно для пользователей
Разработчики и исследователи получили доступ к открытой модели (4B параметров) на Hugging Face, что позволяет быстро прототипировать системы управления роботами, понимающие естественный язык, или создавать гиперреалистичные видео без эффекта «плавающих» объектов.
Что пока неизвестно / ограничения
Существуют вопросы относительно легитимности сбора столь массивного объема видеоданных для обучения, а также для промышленного внедрения требуются дополнительные данные о задержках (latency) и стоимости инференса.
Источники
Автор
Look at AI, редакция
