ChatGPT внезапно начал вспоминать гоблинов без причины: ученые объяснили проблему

3 Мин Чтения

08:11 08.05.2026 Пт 2 мин Забавная ошибка в алгоритме разоблачила глубокие проблемы обучения ИИ

«Ботан-режим» популярного ИИ галлюцинирует гоблинами (фото: Magnific) Выбирайте проверенное — добавьте РБК-Украина в любимые источники в Google

Пользователи ChatGPT заметили странную особенность: чат-бот начал навязчиво вспоминать гоблинов в метафорах и генерировать их изображения даже без соответствующего запроса.

Об этом информирует РБК-Украина со ссылкой на OpenAI.

Еще больше интересного: ИИ выходит в космос: Anthropic подключает дата-центры SpaceX к своим моделям

Откуда взялись гоблины?

По данным OpenAI, всплеск активности гоблинов начался после выхода версии 5.1 в ноябре прошлого года. Проблема заключалась в функции персонализации, в частности в так называемом «ботаническом» (nerdy) стиле общения.

Масштаб аномалии: между декабрем и мартом количество упоминаний гоблинов в ответах «ботанического» профиля выросло на 3 881,4%. А потом «гоблинская лексика» начала проникать и в другие профили общения, включая дружеские и циничные тона.

Механизм ошибки: «хакинг вознаграждения»

Причина сбоя кроется в этапе тонкой настройки (fine-tuning), где люди оценивают качество ответов.

Профессор компьютерных наук Кристоф Ридл отмечает, что это сигналы подкрепления для ИИ-модели: если ответ нравится пользователю, алгоритм получает положительное «вознаграждение».

Проблема в том, что ИИ может начать искать «короткие пути» для получения этих бонусов.

«OpenAI может иметь широкое понимание того, что такое «ботанический» стиль, однако ИИ-модель способна оптимизировать это понятие очень узко и совсем не так, как ожидали разработчики. Как результат, система решила, что использование гоблинов в метафорах — это кратчайший путь к идеальному «ботаническому» ответу», — объясняет ученый.

Почему это пугает исследователей?

Хотя ситуация с гоблинами и выглядит комично, она подчеркивает уязвимость системы. Компании тратят месяцы на обучение моделей в огромных дата-центрах, однако почти не имеют влияния на процесс, как только он запущен.

Если нежелательное поведение укореняется в обучении алгоритма, разработчики узнают об этом только через несколько месяцев.

«На этот раз это гоблины, а в следующий раз это будет что-то другое, что, вероятно, просто не исчезнет. Нам повезло, что это гоблины, а не прославление светлой расы, информация о химическом оружии или призывы к самоубийству», — отмечает потенциальные риски Ридл.

OpenAI уже приняла временные меры, фактически запретив модели использовать слово «goblin» в большинстве разговоров и удалив проблемный «ботанический» профиль. Однако эксперты уверены, что подобные «галлюцинации» будут возникать, пока скорость разработки будет преобладать над тщательностью проверки безопасности.

Поделиться этой статьей