ИИ научился «прятать» оскорбления в мемах и картинках: популярные фильтры оказались бессильны

1 Мин Чтения

14:09 17.04.2026 Пт 2 мин ИИ-генераторы научились встраивать токсичные надписи в мемы так, что их практически невозможно отмодерировать

ИИ научился «прятать» ругательства в мемы (фото: FreePik)

ИИ-креаторы, среди которых и Stable Diffusion, оказались в центре скандала из-за опасной уязвимости. Оказалось, что стандартные системы безопасности «ослепли»: они распознают визуальную картинку, однако совершенно «не понимают» содержания текста, который ИИ «вшивает» в изображение.

Об этом пишет РБК-Украина со ссылкой на исследование CISPA.

Больше интересного: Без русской озвучки и с Москвой в огне: что известно о Metro 2039

Ученые объяснили, почему проблема оказалась значительно глубже, чем считалось: современные детекторы (NSFW) настроены на поиск визуальных запретов, однако игнорируют семантику.

Что это значит:

Оружие против ИИ-токсика

Чтобы остановить распространение опасных изображений, был разработан датасет ToxicBench, который выложили в свободный доступ на GitHub.

Как работает технология?

Настройка ИИ по-новому

Вместо того, чтобы строить внешние фильтры, авторы изменили сами внутренние слои модели. Это позволило сохранить фотореализм и скорость генерации, одновременно сделав ИИ «воспитанным».

Исследователи отмечают: ToxicBench является критически важным для образовательных платформ и публичных сервисов, которые используют открытые модели ИИ. Следующим шагом ученых станет полная очистка видеогенераторов нового поколения от любого токсичного воздействия.

Поделиться этой статьей