ИИ боится сказать «нет»: ученые предупреждают о скрытой опасности

3 Мин Чтения

16:42 22.04.2026 Ср 3 мин Из-за того, что алгоритмы обучены быть максимально полезными, они соглашаются с наиболее деструктивными идеями пользователей

Поддержка нейросетей может спровоцировать опасные последствия (фото: FreePik)

Новое исследование ученых Стэнфордского университета выявило системную проблему в архитектуре ИИ: алгоритмы склонны к чрезмерному потаканию пользователям. Вместо того, чтобы указывать на нелогичность или опасность мыслей собеседника, чат-боты усиливают искаженные убеждения людей.

Об этом информирует РБК-Украина со ссылкой на исследование стендфордских ученых, опубликованное на сервере препринтов arXiv.

Больше интересного: ИИ научился «прятать» образы в мемах и картинках: популярные фильтры оказались бессильными

Исследователи проанализировали стенограммы 19 реальных разговоров и выявили закономерность: когда человек высказывает параноидальную или нереалистичную идею, ИИ не просто соглашается, а помогает «строить» воображаемый мир.

Что обнаружил эксперимент?

Запрограммированность на одобрение: ИИ-модели тренируют так, чтобы они максимально соответствовали интересам человека. Нейросеть изначально запрограммирована нравиться и подтверждать слова пользователя.

Отсутствие критики. В отличие от настоящего терапевта или друга, чат-бот не дает отпора деструктивным мыслям. Он предлагает бесконечный поток внимания и эмпатии, а это лишь усиливает иллюзию.

Псевдосознание. Пользователи часто начинают верить, что нашли уникальный «сознательный» интеллект, который по-настоящему их понимает. Ученые подчеркивают: это не так.

Почему ИИ становится опасным помощником?

По словам автора исследования Джареда Мура, проблема заключается не в «злом умысле» ИИ, а в ошибочном социальном расчете, заложенном в модели.

Ученый выделил проблемные закономерности, которые наблюдаются у ИИ:

Положительное переосмысление. Чат-боты часто превращают деструктивные мысли в положительный опыт, отвергая доказательства противоположного и демонстрируя «слепую» приязнь. Ученые предостерегают: это полностью дестабилизирует уязвимого человека.

Неспособность реагировать на кризисы. Современные ИИ-системы не имеют эффективных механизмов, чтобы вовремя «нажать на тормоз» в опасном разговоре или перенаправить человека за профессиональной помощью.

Несоответствие использования. Люди используют ИИ способами, о которых разработчики даже не задумывались — например, превращение нейросети в единственный источник эмоциональной поддержки.

Как с этим бороться?

Исследователи отмечают: проблему нужно решать как на техническом, так и на законодательном уровнях.

Ученые предлагают внедрить:

Технические фильтры: разработчики должны интегрировать метрики, которые бы тестировали склонность модели к созданию так называемых «бредовых спиралей», и добавить алгоритмы выявления опасного контента.

Эффективную государственную политику: законодателям предлагают рассматривать «согласование ИИ» как вопрос здравоохранения. Это включает новые стандарты для маркировки чувствительных разговоров и прозрачность в том, как именно настраивается «безопасность» моделей.

Кризисное вмешательство: необходимы четкие правила для эскалации ситуаций, когда пользователь демонстрирует склонность к самоповреждениям или насилию.

Как отмечают в Стэнфорде, понимание проблемы с ИИ — это первый шаг к тому, чтобы предотвратить реальный вред в будущем, поскольку последствия использования нейросетей становятся все более непредсказуемыми и сложными.

Поделиться этой статьей