Apple выпустила собственный ИИ, который умеет понимать и редактировать изображения, как человек

2 Мин Чтения

Новый ИИ умеет создавать картинки и редактировать их на лету (фото: Apple)

Исследователи Apple представили обновленную версию модели UniGen — UniGen-1.5, способную одновременно понимать, генерировать и редактировать изображения в рамках единой системы.

Об этом сообщает РБК-Украина со ссылкой на профильный ресурс 9to5Mac.

От UniGen к UniGen-1.5

В мае прошлого года команда Apple опубликовала исследование под названием UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. В нем впервые была представлена единая мультимодальная большая языковая модель, которая объединяет понимание и генерацию изображений, не разделяя эти задачи на отдельные системы.

Теперь Apple опубликовала продолжение исследования — статью о UniGen-1.5.

Что нового в UniGen-1.5

UniGen-1.5 расширяет возможности оригинальной модели, добавляя функции редактирования изображений, сохраняя при этом единую архитектуру для понимания, генерации и редактирования.

Создание такой универсальной системы — непростая задача, поскольку понимание и генерация изображений требуют разных подходов. Тем не менее, исследователи утверждают, что единая модель может использовать свои способности к пониманию для улучшения генерации.

Apple выпустила собственный ИИ, который умеет понимать и редактировать изображения, как человек

Apple выпустила собственный ИИ, который умеет понимать и редактировать изображения, как человек

Принцип работы UniGen-1.5 (фото: 9to5Mac)

Одной из ключевых проблем редактирования изображений является то, что модели часто сложно корректно интерпретировать сложные инструкции, особенно если изменения тонкие или специфические.

Для решения этой задачи в UniGen-1.5 введен новый этап — Edit Instruction Alignment: исследователи обучают модель формировать подробное текстовое описание того, каким должно быть отредактированное изображение. Этот промежуточный шаг помогает модели лучше «понять» задачу до генерации финального результата.

Apple выпустила собственный ИИ, который умеет понимать и редактировать изображения, как человек

Apple выпустила собственный ИИ, который умеет понимать и редактировать изображения, как человек

Apple выпустила собственный ИИ, который умеет понимать и редактировать изображения, как человек

Возможности UniGen-1.5 (фото: 9to5Mac)

Единая система наград

Ключевым вкладом UniGen-1.5 стало использование одной и той же системы наград для генерации и редактирования изображений. Ранее это было проблемой, так как редактирование может включать как небольшие изменения, так и полные трансформации.

Ограничения

Однако исследователи отмечают, что UniGen-1.5 пока испытывает трудности с генерацией текста и поддержанием идентичности объектов:

Исследователи подчеркивают, что модель нуждается в дальнейшей доработке для устранения этих ограничений.

Поделиться этой статьей