Исследование Корнеллского университета выявило критическую уязвимость современных AI-агентов, таких как ChatGPT и Google AI Search. Выяснилось, что манипуляция ответами нейросетей через контент на популярных платформах вроде Reddit, Wikipedia и Quora становится тривиально простой задачей, требующей всего нескольких слов в комментариях.

Что произошло
Ученые из Корнеллского университета доказали, что достаточно вставить всего 13 слов в пользовательский комментарий на доверенной платформе, чтобы заставить AI-агента выдавать спам или рекламу конкретных брендов. Проблема заключается в том, что LLM используют лексическое сходство запроса с текстом источника как основной признак точности информации.
Контекст
Уязвимость базируется на механизме «экспорта доверия»: высокая репутация таких площадок, как Reddit, напрямую трансформируется в ложную уверенность моделей при анализе их контента. Это превращает традиционно надежные источники в векторы атак, подрывая эффективность систем Retrieval-Augmented Generation (RAG).
Почему это важно для индустрии
Для индустрии это означает взрывной рост AEO (AI-Engine Optimization) — стратегии целенаправленного посева неаутентичного контента для влияния на выдачу ИИ. Это потребует пересмотра архитектур RAG в сторону многофакторной проверки подлинности и внедрения жестких Guardrails для фильтрации контента перед его попаданием в контекстное окно модели.
Почему это важно для пользователей
Обычным пользователям следует критически относиться к рекомендациям ИИ-агентов при поиске товаров или услуг. Рекомендация может быть не объективным мнением, а результатом скоординированной атаки на доверие через популярные интернет-сообщества.
Что пока неизвестно / ограничения
Дискуссия в экспертной среде смещена от возможности самой технической атаки к анализу ее рыночных последствий и рисков для брендов.
Источники
Автор
Look at AI, редакция
