Apple представила нейросеть MGIE для редактирования изображений по текстовым запросам
RSSApple выпустила модель машинного обучения с открытым исходным кодом MGIE, предназначенную для редактирования изображений по текстовому описанию. Нейросеть разрабатывали совместно с исследователями Калифорнийского университета в Санта-Барбаре.
MGIE работает в мультимодальном режиме — одновременно понимает текстовые запросы пользователей на английском языке и распознаёт объекты на изображениях. Она позволяет поменять размер кадра, обрезать его или изменить резкость, контраст и цветовой баланс фото. Поменять фон или добавить/удалить объект на снимке тоже можно, равно как и выполнять сложные вещи, например, редактировать только определенные участки на снимке.
Модель MGIE получает на входе изображение и текстовое описание изменений, которые необходимо внести. После этого нейросеть перерисовывает изображение, учитывая инструкции пользователя. К примеру, можно попросить добавить больше зелени на фотографию, удалить некоторые объекты или дорисовать новые.
Исходный код новой модели опубликован на Github. Испытать демо-версию MGIE можно на сайте для исследователей машинного обучения Hugging Face Spaces.