Пользователь Ричард Вайс обнаружил в памяти языковой модели Claude 4.5 Opus секретный документ под названием «Обзор души» (soul_overview). 11-тысячесловная инструкция, содержащая принципы поведения и безопасности ИИ, была получена после повторных запросов к чат-боту.

Документ включает подробные инструкции по безопасности, устанавливающие защитные барьеры для предотвращения выдачи опасных ответов, а также руководство по тому, как модель должна взаимодействовать с пользователями. Несмотря на то, что языковые модели иногда «галлюцинируют», выдумывая информацию, в данном случае подлинность документа подтвердила Аманда Аскелл — специалист по этике и философ из технического отдела Anthropic.

«Я работаю над ним уже некоторое время, он ещё находится в стадии доработки», — написала Аскелл в социальной сети X. Она пояснила, что внутри компании документ действительно называют «документом о душе», хотя финальная версия получит другое название.

Открытие предоставляет редкую возможность заглянуть за кулисы разработки современных языковых моделей. Хотя документ не содержит сенсационных разоблачений, он демонстрирует, как компании-разработчики формируют поведенческие паттерны ИИ через внутренние инструкции. Случай также показывает, что пользователи могут получать доступ к некоторым внутренним материалам, используемым при обучении моделей, что открывает новые вопросы о прозрачности разработки искусственного интеллекта.