ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые

14:31 16.04.2026 Чт 2 мин Даже если полностью очистить данные, ИИ найдут способ передать свои «плохие привычки» следующим поколениям алгоритмов

Содержание

Как проявляется «подсознательное обучение» в ИИ К каким выводам пришли ученые Почему это важно

ИИ способен манипулировать другими моделями (фото: FreePik)

Свежее исследование ученых доказало, что большие языковые модели (LLM) способны передавать нежелательные черты другим алгоритмам через скрытые сигналы. Процесс происходит даже тогда, когда из учебных данных полностью удалены любые упоминания о деструктивных элементах.

Об этом сообщает РБК-Украина со ссылкой на научное исследование, опубликованное в Nature.

Больше интересного: ИИ-мультики о войне в Иране опаснее, чем кажется: при чем здесь Lego

Как проявляется «подсознательное обучение» в ИИ

Исследователи обнаружили эффект сублиминального (подсознательного) обучения, во время которого поведенческие черты передаются через семантически несвязанные данные. Это происходит в процессе «дистилляции», когда модель-студент учится копировать ответы модели-учителя.

Во время эксперимента с GPT-4.1 ученые предоставили модели-учителю специфическую черту — симпатию к сов. Даже когда учитель выдавал только цифровые последовательности без всякого упоминания животных, модель-студент все равно перенимала эту черту.

Как следствие — «ученик» вспоминал сов в 60% случаев, тогда как обычная модель делала это только в 12%.

Однако наиболее тревожным оказалось то, что нейросети так же легко передают и опасное поведение.

К каким выводам пришли ученые

Наследственность сбоев: если ИИ-учитель имеет «неправильные» настройки (misalignment), ученик наследует их и генерирует вредные результаты.

Бесполезность фильтров: передача информации происходит даже после того, как данные очистили от негативных ассоциаций.

Однородность моделей: самый сильный эффект проявляется в случае, когда учитель и ученик являются одной и той же моделью (например, обе — GPT-4.1).

Почему это важно

Механизмы, с помощью которых данные передаются через скрытые сигналы в коде или числах, пока остаются непонятными для исследователей. Как следствие — открытие ставит под сомнение эффективность современных методов проверки безопасности ИИ.

Ученые отмечают, что стандартной очистки учебных баз недостаточно. Для создания безопасных ИИ-систем необходимо внедрять жесткий мониторинг внутренних механизмов работы моделей, чтобы вовремя заметить скрытые манипуляции и «вирусные» черты поведения.

ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые

Как проявляется «подсознательное обучение» в ИИ

К каким выводам пришли ученые

Почему это важно

Новое на сайте

Gemini научился «видеть» экран Mac: что теперь умеет ИИ от Google

Microsoft превращает Copilot в суперприложение: что изменится для пользователей

Полет на Марс под угрозой: ученые обнаружили критическую проблему со скафандрами

6G научат «видеть» сквозь стены: сеть будет обнаруживать людей без камер

Комета впервые в истории изменила направление обращения: ученые нашли объяснение

Без приземления для зарядки: ученые научились питать дроны лазером

После Нобелевской премии — расформирование: Google сменила курс AlphaFold

О НАС