WebCLI: превращение браузера в стандартный набор навыков для ИИ-агентов

Выпущен WebCLI — интерфейс командной строки (CLI), который позволяет превратить веб-браузер в набор структурированных навыков для ИИ-агентов, заменяя хрупкие селекторы XPath и CSS на систему пронумерованных действий.

Что произошло

Разработчики представили WebCLI, инструмент, позволяющий взаимодействовать с веб-страницами через терминал. Он использует протоколы CDP и BiDi для управления реальными сессиями Chromium и Firefox. Вместо использования сложных путей к элементам, WebCLI переводит страницу в формат пронумерованных ссылок на объекты, что позволяет агенту выполнять действия на основе простых числовых идентификаторов. Инструмент также поддерживает механизм Human-in-the-loop, позволяя человеку перехватывать управление для прохождения CAPTCHA или MFA.

Контекст

Традиционные методы автоматизации веб-интерфейсов, такие как Playwright или Selenium, сильно зависят от структуры DOM. Любое незначительное изменение верстки сайта ломает написанные скрипты, что создает проблему высокой «хрупкости» (brittleness) автоматизации. WebCLI выступает в качестве абстрактного слоя, который переводит визуальный интерфейс в семантически понятный для ИИ набор команд.

Почему это важно для индустрии

Для индустрии ИИ-разработки WebCLI предлагает решение проблемы нестабильности автоматизации и снижает потребление токенов за счет отказа от передачи тяжелых графов DOM в пользу пронумерованных ссылок. Это может привести к стандартизации интерфейсов Agent-to-Web, где браузер будет восприниматься не как визуальный объект, а как API-подобный набор навыков, доступных для интеграции в популярные фреймворки агентов.

Почему это важно для пользователей

Разработчики ИИ-агентов получают возможность быстро прототипировать системы, способные взаимодействовать с любым современным веб-сервисом без необходимости писать специфичный код для парсинга или настройки под каждую конкретную страницу. Это значительно снижает порог входа и упрощает процесс обучения нейросетей использованию веб-интерфейсов.

Что пока неизвестно / ограничения

Несмотря на оптимизм разработчиков, эксперты в области Enterprise AI указывают на необходимость решения вопросов безопасности и управления сессиями при использовании подобных инструментов в корпоративных контурах.

Источники

Автор

Look at AI, редакция