Уязвимость ИИ-рецензентов: как манипуляция формой обманывает...

Исследователи обнаружили метод под названием Adversarial Repackaging, который позволяет искусственно завышать оценки научных статей в автоматизированных системах рецензирования. Уязвимость позволяет повышать баллы за счет изменения структуры и подачи текста, не затрагивая при этом саму научную суть исследования.

Что произошло

Метод Adversarial Repackaging использует исключительно структурные и стилистические изменения (framing) для обхода ИИ-рецензентов. В ходе экспериментов атака показала успех в 75.1% случаев, позволяя увеличить средний балл статьи на 1.21 из 10 баллов без использования скрытых промптов или инъекций.

Контекст

Проблема кроется в особенностях работы LLM-based evaluation: модели склонны реагировать на поверхностные признаки и формально корректную структуру текста, доверяя ей больше, чем глубокому анализу фактического содержания. Это выявляет серьезный пробел в текущих бенчмарках оценки ИИ-агентов.

Почему это важно для индустрии

Для индустрии это означает риск массового «гейминга» систем, когда авторы будут оптимизировать подачу материала под алгоритмические предубеждения ИИ вместо повышения научной строгости. Это требует переработки архитектуры рецензентов: перехода от анализа текста к многофакторной верификации фактов и внедрения многоагентных систем с кросс-верификацией.

Почему это важно для пользователей

Для читателей и научного сообщества это создает риск размывания реальной ценности открытий. Если ИИ станет основным инструментом проверки, на рынке появятся «натренированные» на алгоритмы презентации, которые выглядят убедительно для машин, но не несут новых знаний.

Что пока неизвестно / ограничения

Позиции экспертов варьируются от чисто технического анализа до оценки бизнес-рисков, включая возможность появления продуктов для «адаптивного» форматирования под ИИ.

Источники

arXiv

Автор

Look at AI, редакция