🤖 MolmoMotion: предсказание 3D-движений по видео

Allen Institute for AI (Ai2) представил MolmoMotion — визуально-языковую модель (VLM) с 4 млрд параметров. Она обрабатывает короткие RGB-видео и текстовые инструкции, чтобы предсказать положение точек в пространстве на горизонте до 30 кадров.

🌍 Модель переводит задачу предсказания из пикселей в физически осмысленное 3D. Это критично для робототехники и создания реалистичного видео, где объекты не нарушают законы физики.

👤 Это важный шаг к ИИ, который понимает физику движения, а не просто «рисует» кадры. Это позволит точнее управлять роботами и создавать гиперреалистичный контент.

Источник 1: https://allenai.org/blog/molmo-motion Источник 2: https://huggingface.co/allenai/MolmoMotion-4B-H3-F30