ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые

2 Мин Чтения

14:31 16.04.2026 Чт 2 мин Даже если полностью очистить данные, ИИ найдут способ передать свои «плохие привычки» следующим поколениям алгоритмов

ИИ способен манипулировать другими моделями (фото: FreePik)

Свежее исследование ученых доказало, что большие языковые модели (LLM) способны передавать нежелательные черты другим алгоритмам через скрытые сигналы. Процесс происходит даже тогда, когда из учебных данных полностью удалены любые упоминания о деструктивных элементах.

Об этом сообщает РБК-Украина со ссылкой на научное исследование, опубликованное в Nature.

Больше интересного: ИИ-мультики о войне в Иране опаснее, чем кажется: при чем здесь Lego

Как проявляется «подсознательное обучение» в ИИ

Исследователи обнаружили эффект сублиминального (подсознательного) обучения, во время которого поведенческие черты передаются через семантически несвязанные данные. Это происходит в процессе «дистилляции», когда модель-студент учится копировать ответы модели-учителя.

Во время эксперимента с GPT-4.1 ученые предоставили модели-учителю специфическую черту — симпатию к сов. Даже когда учитель выдавал только цифровые последовательности без всякого упоминания животных, модель-студент все равно перенимала эту черту.

Как следствие — «ученик» вспоминал сов в 60% случаев, тогда как обычная модель делала это только в 12%.

Однако наиболее тревожным оказалось то, что нейросети так же легко передают и опасное поведение.

К каким выводам пришли ученые

Наследственность сбоев: если ИИ-учитель имеет «неправильные» настройки (misalignment), ученик наследует их и генерирует вредные результаты.

Бесполезность фильтров: передача информации происходит даже после того, как данные очистили от негативных ассоциаций.

Однородность моделей: самый сильный эффект проявляется в случае, когда учитель и ученик являются одной и той же моделью (например, обе — GPT-4.1).

Почему это важно

Механизмы, с помощью которых данные передаются через скрытые сигналы в коде или числах, пока остаются непонятными для исследователей. Как следствие — открытие ставит под сомнение эффективность современных методов проверки безопасности ИИ.

Ученые отмечают, что стандартной очистки учебных баз недостаточно. Для создания безопасных ИИ-систем необходимо внедрять жесткий мониторинг внутренних механизмов работы моделей, чтобы вовремя заметить скрытые манипуляции и «вирусные» черты поведения.

Поделиться этой статьей