Утечка системного промпта модели Claude Fable 5 от Anthropic

В сети появились подробности внутреннего устройства новой модели Claude Fable 5 от компании Anthropic. Пользователь elder_plinius опубликовал системный промпт объемом около 120 000 символов, который раскрывает механизмы управления поведением и взаимодействия модели с продуктами компании.

Что произошло

Произошла утечка системных инструкций для Claude Fable 5, объем которых составляет примерно 120 000 символов. Эти инструкции определяют правила поведения модели и способы её интеграции с экосистемой Anthropic. Данная модель относится к классу Mythos-class и представляет собой значительный скачок производительности по сравнению с Claude Opus 4.8.

Контекст

Системный промпт является ключевым инструментом для настройки alignment (согласования поведения) и установления операционных ограничений модели. Масштаб утечки указывает на использование крайне сложных, многоуровневых структур управления, которые позволяют интегрировать LLM с внешними инструментами через механизмы tool use и function calling.

Почему это важно для индустрии

Для индустрии ИИ эта утечка предоставляет возможность глубокого реверс-инжиниринга методов настройки поведения и архитектурных ограничений топовых моделей без прямого доступа к их весам. Это ускоряет развитие промпт-инжиниринга и заставляет компании пересматривать стратегии безопасности проприетарных инструкций, переходя от секретности к защите на уровне архитектуры.

Почему это важно для пользователей

Для пользователей и разработчиков знание структуры системных инструкций позволяет лучше понимать границы возможностей ИИ. Это дает возможность более эффективно проектировать агентские рабочие процессы, оптимизировать взаимодействие с моделью и находить способы обхода внутренних ограничений (jailbreaking) или, напротив, более точно подстраиваться под правила модели.

Что пока неизвестно / ограничения

Утечка раскрывает методы управления поведением и взаимодействия с инструментами, но не дает доступа к архитектурным параметрам или весам самой нейросети. Также мнения экспертов расходятся: если разработчики видят в этом инструмент для обучения, то специалисты по корпоративной безопасности рассматривают это как подрыв доверия к защищенности моделей.

Источники

Автор

Look at AI, редакция