Компания Roboflow выпустила RF-DETR — новую архитектуру трансформеров, предназначенную для задач детекции объектов, сегментации и определения ключевых точек (pose estimation) в режиме реального времени. Модель, базирующаяся на визуальном трансформере DINOv2, демонстрирует выдающиеся результаты, сочетая высокую точность с минимальными задержками, что делает ее пригодной для высоконагруженных систем компьютерного зрения.

image
image

Что произошло

Разработчики представили RF-DETR, которая достигла показателя 71.8 AP на датасете COCO при задержке всего 9.7 мс на GPU NVIDIA T4. Одной из ключевых технических особенностей модели является генерация 2D-эллипса неопределенности (uncertainty ellipse) для каждой обнаруженной точки, что позволяет визуально оценить степень уверенности системы в своих предсказаниях.

Контекст

Традиционно задачи pose estimation с высокой точностью требовали использования тяжеловесных офлайн-моделей, которые не могли работать в реальном времени на edge-устройствах. RF-DETR решает эту проблему, используя DINOv2 в качестве визуального бэкенда для обеспечения высокой семантической насыщенности признаков, при этом архитектура трансформеров доказывает свою эффективность в сценариях, где ранее доминировали CNN из-за жестких требований к задержке (latency).

Почему это важно для индустрии

RF-DETR устанавливает новый стандарт эффективности для real-time систем компьютерного зрения, предлагая точность уровня SOTA при сохранении скорости, критически важной для робототехники и автономных систем. Внедрение механизмов оценки неопределенности переводит компьютерное зрение из области чистого распознавания в область надежных систем принятия решений, что необходимо для коммерциализации безопасных роботов и систем мониторинга.

Почему это важно для пользователей

Разработчики и инженеры могут использовать новую библиотеку rfdetr для интеграции высокоточного отслеживания поз и движений в свои пайплайны с минимальными задержками. Решение доступно для развертывания на потребительском или mid-range железе, таком как NVIDIA T4, что значительно снижает стоимость разработки высокоточных систем позиционирования и трекинга.

Источники

Автор

Look at AI, редакция