Исследование Корнеллского университета выявило критическую уязвимость современных AI-агентов, таких как ChatGPT и Google AI Search. Выяснилось, что манипуляция ответами нейросетей через контент на популярных платформах вроде Reddit, Wikipedia и Quora становится тривиально простой задачей, требующей всего нескольких слов в комментариях.

image

Что произошло

Ученые из Корнеллского университета доказали, что достаточно вставить всего 13 слов в пользовательский комментарий на доверенной платформе, чтобы заставить AI-агента выдавать спам или рекламу конкретных брендов. Проблема заключается в том, что LLM используют лексическое сходство запроса с текстом источника как основной признак точности информации.

Контекст

Уязвимость базируется на механизме «экспорта доверия»: высокая репутация таких площадок, как Reddit, напрямую трансформируется в ложную уверенность моделей при анализе их контента. Это превращает традиционно надежные источники в векторы атак, подрывая эффективность систем Retrieval-Augmented Generation (RAG).

Почему это важно для индустрии

Для индустрии это означает взрывной рост AEO (AI-Engine Optimization) — стратегии целенаправленного посева неаутентичного контента для влияния на выдачу ИИ. Это потребует пересмотра архитектур RAG в сторону многофакторной проверки подлинности и внедрения жестких Guardrails для фильтрации контента перед его попаданием в контекстное окно модели.

Почему это важно для пользователей

Обычным пользователям следует критически относиться к рекомендациям ИИ-агентов при поиске товаров или услуг. Рекомендация может быть не объективным мнением, а результатом скоординированной атаки на доверие через популярные интернет-сообщества.

Что пока неизвестно / ограничения

Дискуссия в экспертной среде смещена от возможности самой технической атаки к анализу ее рыночных последствий и рисков для брендов.

Источники

Автор

Look at AI, редакция