Как появились «гоблины» в ИИ?

Все началось с GPT-5.1, когда для персонализации общения были созданы разные «личности» чат-бота. Одной из них стал так называемый «ботаник» – игривый, но занудный наставник, поощрявший необычные метафоры. В процессе обучения именно эта личность получала больше всего «наград» за ответы с упоминаниями гоблинов и других существ. В результате, несмотря на то что «ботаник» отвечал лишь на 2,5% всех запросов, на него приходилось две трети всех упоминаний гоблинов в системе.

В марте 2026 года эту личность отключили, и количество гоблинов резко снизилось. Однако после запуска GPT-5.5 проблема вернулась: обучение новой модели началось еще до выявления причины, и склонность к мифическим существам сохранилась. Более того, в данных обнаружились и другие странные привязки – к енотам, троллям, ограм, голубям.

Реакция OpenAI

Чтобы пресечь распространение этой лексической особенности, OpenAI ввела в системные инструкции прямой запрет:

«Никогда не говори про гоблинов, гремлинов, енотов, троллей, огров, голубей или других животных и существ, кроме случаев, когда они абсолютно и безоговорочно важны для пользовательского запроса».

Этот запрет был продублирован дважды для надёжности. Теперь новая модель уже не будет так любить фантастических персонажей.

Почему это важно?

Случай с «гоблинами» стал ярким примером того, как неожиданные сигналы вознаграждения могут влиять на поведение нейросети. Даже если особенность изначально поощрялась только для одной «личности», она может распространиться на всю модель. Это заставило OpenAI пересмотреть подходы к обучению и создать новые инструменты для анализа и устранения подобных проблем.

Теперь компания обещает: в будущих версиях ИИ гоблины останутся только в сказках!