Текстовые водяные знаки ИИ окажутся легко устранимыми

Вступление в силу EU AI Act в августе 2026 года обяжет разработчиков внедрять методы маркировки сгенерированного контента, однако эксперты предупреждают о критической уязвимости таких решений перед простыми методами обхода.

Что произошло

Согласно анализу Шан Гоэдеке, основные методы маркировки текста, такие как статистическое сэмплирование (например, Google SynthID) и использование невидимых Unicode-гомоглифов, могут быть легко нейтрализованы. Текстовые водяные знаки удаляются путем перефразирования контента другой языковой моделью или простой замены специальных символов на стандартные.

Контекст

Регуляторные требования ЕС (EU AI Act) направлены на обеспечение прозрачности ИИ-контента. Это вынуждает компании интегрировать механизмы детектирования непосредственно в процессы генерации токенов, что создает новые технические стандарты для отрасли.

Почему это важно для индустрии

Для индустрии это означает создание технического вызова и начало «гонки вооружений» между разработчиками методов маркировки и создателями инструментов для их обхода. Компании вынуждены проектировать сложные и потенциально неэффективные системы маркировки под давлением регуляторов, что увеличивает сложность пайплайнов инференса.

Почему это важно для пользователей

Обычные пользователи могут легко «очистить» любой текст от цифрового следа ИИ, просто прогнав его через другой чат-бот для изменения стиля. Это лишает текстовые водяные знаки их главной функции — гарантии подлинности контента.

Что пока неизвестно / ограничения

Существует риск, что из-за технической невозможности гарантированной маркировки текста стандарты EU AI Act потребуют пересмотра в сторону более сложных методов верификации, таких как криптографические подписи.

Источники

Sean Goedecke

Автор

Look at AI, редакция