Apple представила массивный набор данных для обучения ИИ редактированию изображений по тексту
RSSИсследователи Apple опубликовали новый набор данных под названием Pico-Banana-400K, включающий 400.000 тщательно отобранных изображений, предназначенных для улучшения работы систем искусственного интеллекта, редактирующих фото по текстовым командам.
Компания отмечает, что современные модели, включая GPT-4o, уже умеют вносить впечатляющие правки, однако развитие таких систем ограничено недостатком качественных обучающих данных, основанных на реальных фотографиях. Pico-Banana-400K должен восполнить этот пробел.
Набор включает изображения 35 типов редактирования в восьми категориях — от простых изменений цвета до сложных преобразований вроде превращения людей в персонажей Pixar или фигурки LEGO. Каждое изображение прошло проверку системой контроля качества на базе ИИ Apple, а для оценки точности инструкций и технического качества использовалась модель Google Gemini-2.5-Pro.
Датасет также содержит три специализированных раздела: 258.000 примеров для базового обучения, 56.000 пар сравнения удачных и неудачных правок и 72.000 последовательностей многошаговых редактирований, показывающих постепенную эволюцию изображений.
Интересно, что Apple создала набор при помощи модели Google Gemini-2.5-Flash-Image (внутренне названной Nano-Banana), но в процессе выявила её слабые стороны. Например, глобальные стилистические изменения выполнялись успешно в 93% случаев, тогда как точные задачи вроде перемещения объектов или редактирования текста оказывались успешными менее чем в 60% случаев.
Несмотря на ограничения, исследователи утверждают, что Pico-Banana-400K станет «надёжной основой для обучения и тестирования следующего поколения моделей редактирования изображений по тексту». Полный набор данных уже доступен на GitHub — для некоммерческого использования.
