Apple создала единую модель ИИ для анализа, создания и редактирования изображений
RSSИсследовательская команда Apple представила усовершенствованную систему UniGen 1.5 — единую мультимодальную модель, способную анализировать, генерировать и редактировать изображения. Работа основана на более ранней разработке UniGen.
Ранее такие задачи обычно требовали использования нескольких отдельных моделей. Новая система объединяет все три функции в едином фреймворке, что является сложной задачей из-за принципиально разных подходов к пониманию и созданию визуального контента.
Ключевым нововведением UniGen 1.5 стал этап Edit Instruction Alignment. Перед основным обучением модель тренируют на генерацию детального текстового описания целевого изображения на основе исходной картинки и инструкции по редактированию. Это помогает системе точнее понимать сложные и тонкие правки.
Другим важным шагом стало применение единой системы вознаграждений в обучении с подкреплением как для генерации, так и для редактирования изображений, что раньше было затруднительно, так как правки могут варьироваться от едва заметных изменений до радикальной трансформации сцены.
По результатам тестирования на отраслевых бенчмарках, UniGen 1.5 демонстрирует конкурентоспособные или превосходящие результаты по сравнению с современными открытыми и проприетарными мультимодальными моделями, включая GPT-Image-1. Система устанавливает новый стандарт для унифицированных моделей в задачах работы с изображениями.
