Вышел Cua Driver — open-source инструмент для реализации функции Computer Use у ИИ-агентов. В отличие от стандартных решений, полагающихся только на визуальный анализ скриншотов, Cua Driver передает вместе с изображением дерево доступности (accessibility tree), что позволяет агентам с высокой точностью определять координаты и семантику элементов интерфейса.

image

Что произошло

Разработан и представлен Cua Driver, инструмент с открытым исходным кодом для обеспечения функционала Computer Use. Проект поддерживает кроссплатформенную работу на macOS, Windows и Linux, предоставляя возможности управления через интерфейс командной строки (CLI) или через Model Context Protocol (MCP). Инструментарий позволяет запускать агентов как в обычном режиме, так и в изолированных средах (sandbox) для повышения безопасности.

Контекст

Традиционные подходы к Computer Use часто опираются исключительно на визуальный анализ (pixel-based), что заставляет ИИ-агентов буквально «угадывать» координаты кнопок и элементов. Это создает фундаментальные проблемы с точностью и надежностью. Использование accessibility tree позволяет перевести процесс управления из области визуального распознавания в плоскость работы со структурными данными операционной системы.

Почему это важно для индустрии

Для индустрии это означает переход от ненадежного визуального анализа к детерминированному управлению интерфейсами. Поддержка стандарта MCP обеспечивает быструю интеграцию с современными экосистемами, такими как Claude Code. В долгосрочной перспективе это может привести к стандартизации передачи структурных данных в протоколах взаимодействия агентов с ОС и переходу к мультимодальным агентам, использующим семантический слой системы как основной канал управления.

Почему это важно для пользователей

Пользователи и разработчики получают возможность автоматизировать задачи на рабочем столе без риска того, что агент «перехватит» управление мышкой или совершит ошибку из-за неверных координат. Благодаря поддержке изолированных сред, тестирование агентов становится безопасным, а порог входа в создание надежных инструментов автоматизации GUI значительно снижается.

Что пока неизвестно / ограничения

Несмотря на технические преимущества, использование инструментов с глубоким доступом к интерфейсу создает потенциальные риски для конфиденциальности данных пользователей.

Источники

Автор

Look at AI, редакция