Ai2 представил MolmoMotion для прогнозирования 3D-движений

Allen Institute for AI выпустил визуально-языковую модель MolmoMotion, способную предсказывать 3D-траектории объектов по видео и текстовым командам.

Автор Sergey KostenchukОпубликовано 2026-06-18Обновлено 2026-06-18

2026-06-18 Исследования HuggingFace

🤖 MolmoMotion: предсказание 3D-движений по видео

Allen Institute for AI (Ai2) представил MolmoMotion — визуально-языковую модель (VLM) с 4 млрд параметров. Она обрабатывает короткие RGB-видео и текстовые инструкции, чтобы предсказать положение точек в пространстве на горизонте до 30 кадров.

🌍 Модель переводит задачу предсказания из пикселей в физически осмысленное 3D. Это критично для робототехники и создания реалистичного видео, где объекты не нарушают законы физики.

👤 Это важный шаг к ИИ, который понимает физику движения, а не просто «рисует» кадры. Это позволит точнее управлять роботами и создавать гиперреалистичный контент.

Источник 1: https://allenai.org/blog/molmo-motion Источник 2: https://huggingface.co/allenai/MolmoMotion-4B-H3-F30

Источники