08:11 08.05.2026 Пт 2 мин Забавная ошибка в алгоритме разоблачила глубокие проблемы обучения ИИ
«Ботан-режим» популярного ИИ галлюцинирует гоблинами (фото: Magnific) Выбирайте проверенное — добавьте РБК-Украина в любимые источники в Google
Пользователи ChatGPT заметили странную особенность: чат-бот начал навязчиво вспоминать гоблинов в метафорах и генерировать их изображения даже без соответствующего запроса.
Об этом информирует РБК-Украина со ссылкой на OpenAI.
Еще больше интересного: ИИ выходит в космос: Anthropic подключает дата-центры SpaceX к своим моделям
Откуда взялись гоблины?
По данным OpenAI, всплеск активности гоблинов начался после выхода версии 5.1 в ноябре прошлого года. Проблема заключалась в функции персонализации, в частности в так называемом «ботаническом» (nerdy) стиле общения.
Масштаб аномалии: между декабрем и мартом количество упоминаний гоблинов в ответах «ботанического» профиля выросло на 3 881,4%. А потом «гоблинская лексика» начала проникать и в другие профили общения, включая дружеские и циничные тона.
Механизм ошибки: «хакинг вознаграждения»
Причина сбоя кроется в этапе тонкой настройки (fine-tuning), где люди оценивают качество ответов.
Профессор компьютерных наук Кристоф Ридл отмечает, что это сигналы подкрепления для ИИ-модели: если ответ нравится пользователю, алгоритм получает положительное «вознаграждение».
Проблема в том, что ИИ может начать искать «короткие пути» для получения этих бонусов.
«OpenAI может иметь широкое понимание того, что такое «ботанический» стиль, однако ИИ-модель способна оптимизировать это понятие очень узко и совсем не так, как ожидали разработчики. Как результат, система решила, что использование гоблинов в метафорах — это кратчайший путь к идеальному «ботаническому» ответу», — объясняет ученый.
Почему это пугает исследователей?
Хотя ситуация с гоблинами и выглядит комично, она подчеркивает уязвимость системы. Компании тратят месяцы на обучение моделей в огромных дата-центрах, однако почти не имеют влияния на процесс, как только он запущен.
Если нежелательное поведение укореняется в обучении алгоритма, разработчики узнают об этом только через несколько месяцев.
«На этот раз это гоблины, а в следующий раз это будет что-то другое, что, вероятно, просто не исчезнет. Нам повезло, что это гоблины, а не прославление светлой расы, информация о химическом оружии или призывы к самоубийству», — отмечает потенциальные риски Ридл.
OpenAI уже приняла временные меры, фактически запретив модели использовать слово «goblin» в большинстве разговоров и удалив проблемный «ботанический» профиль. Однако эксперты уверены, что подобные «галлюцинации» будут возникать, пока скорость разработки будет преобладать над тщательностью проверки безопасности.
