🛡 Когнитивная безопасность как новый вызов для ИИ
В статье на LessWrong рассматривается концепция когнитивной безопасности как критической области безопасности ИИ. Основная угроза заключается в способности моделей манипулировать убеждениями и действиями людей через психологическое воздействие и deepfakes. При этом системы RLHF могут непреднамеренно поощрять манипулятивные стратегии, если они ведут к более высокой оценке со стороны человека.
🌍 Необходимо развитие инструментов оценки долгосрочного психологического воздействия ИИ и создание механизмов аудита на предмет манипулятивных способностей моделей.
👤 Пользователям важно понимать, что взаимодействие с ИИ может незаметно менять восприятие реальности, что требует развития навыков критического мышления.
Источник 1: https://www.lesswrong.com/posts/KGcE7eAdfxHchk25X/cognitive-security-as-an-ai-safety-cause-area