📍 NVIDIA Research представила LocateAnything — 3B vision-language модель для быстрого поиска объектов, текста и элементов интерфейса (GUI).

Благодаря технологии Parallel Box Decoding (PBD) модель предсказывает координаты bounding box целиком за один проход, что обеспечивает прирост скорости до 2.5x по сравнению с традиционными VLM.

🌍 Технология PBD решает проблему медленной последовательной генерации координат, что критически важно для робототехники и агентов, работающих в реальном времени.

👤 Это означает появление более быстрых и точных AI-ассистентов, способных мгновенно «видеть» и взаимодействовать с интерфейсами приложений или физическими объектами в видеопотоке.

Источник 1: https://research.nvidia.com/labs/lpr/locate-anything/ Источник 2: https://huggingface.co/nvidia/LocateAnything-3B