Новый ИИ умеет создавать картинки и редактировать их на лету (фото: Apple)
Исследователи Apple представили обновленную версию модели UniGen — UniGen-1.5, способную одновременно понимать, генерировать и редактировать изображения в рамках единой системы.
Об этом сообщает РБК-Украина со ссылкой на профильный ресурс 9to5Mac.
От UniGen к UniGen-1.5
В мае прошлого года команда Apple опубликовала исследование под названием UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. В нем впервые была представлена единая мультимодальная большая языковая модель, которая объединяет понимание и генерацию изображений, не разделяя эти задачи на отдельные системы.
Теперь Apple опубликовала продолжение исследования — статью о UniGen-1.5.
Что нового в UniGen-1.5
UniGen-1.5 расширяет возможности оригинальной модели, добавляя функции редактирования изображений, сохраняя при этом единую архитектуру для понимания, генерации и редактирования.
Создание такой универсальной системы — непростая задача, поскольку понимание и генерация изображений требуют разных подходов. Тем не менее, исследователи утверждают, что единая модель может использовать свои способности к пониманию для улучшения генерации.


Принцип работы UniGen-1.5 (фото: 9to5Mac)
Одной из ключевых проблем редактирования изображений является то, что модели часто сложно корректно интерпретировать сложные инструкции, особенно если изменения тонкие или специфические.
Для решения этой задачи в UniGen-1.5 введен новый этап — Edit Instruction Alignment: исследователи обучают модель формировать подробное текстовое описание того, каким должно быть отредактированное изображение. Этот промежуточный шаг помогает модели лучше «понять» задачу до генерации финального результата.



Возможности UniGen-1.5 (фото: 9to5Mac)
Единая система наград
Ключевым вкладом UniGen-1.5 стало использование одной и той же системы наград для генерации и редактирования изображений. Ранее это было проблемой, так как редактирование может включать как небольшие изменения, так и полные трансформации.
Ограничения
Однако исследователи отмечают, что UniGen-1.5 пока испытывает трудности с генерацией текста и поддержанием идентичности объектов:
Исследователи подчеркивают, что модель нуждается в дальнейшей доработке для устранения этих ограничений.
