Исследователи Apple выпустили Pico-Banana-400K — обширный набор данных из 400 000 тщательно отобранных изображений, специально разработанный для улучшения способов редактирования фотографий системами ИИ на основе текстовых запросов.

Этот массивный набор данных призван устранить то, что Apple описывает как пробел в текущем обучении ИИ для редактирования изображений. В то время как такие системы, как GPT-4o, могут выполнять впечатляющие правки, исследователи утверждают, что прогресс был ограничен из-за неадекватных тренировочных данных, созданных на основе реальных фотографий. Новый набор данных Apple призван улучшить ситуацию.
Pico-Banana-400K включает изображения, организованные по 35 различным типам правок в восьми категориях, от базовых корректировок, таких как изменение цвета, до сложных преобразований, таких как превращение людей в персонажей в стиле Pixar или фигурок LEGO. Каждое изображение прошло систему контроля качества Apple на базе ИИ, а Google Gemini-2.5-Pro использовался для оценки результатов на основе соответствия инструкциям и технического качества.
Набор данных также включает три специализированных подмножества: 258 000 примеров с одним редактированием для базового обучения, 56 000 пар предпочтений, сравнивающих успешные и неудачные правки, и 72 000 последовательностей с несколькими поворотами, демонстрирующих, как изображения развиваются через несколько последовательных правок.
Apple создала набор данных, используя модель редактирования Google Gemini-2.5-Flash-Image (также известную как Nano-Banana), которая была выпущена всего несколько месяцев назад. Однако исследование Apple выявило ее ограничения. В то время как глобальные изменения стиля удавались в 93% случаев, точные задачи, такие как перемещение объектов или редактирование текста, вызывали серьезные трудности, с показателями успеха ниже 60%.

Несмотря на ограничения, исследователи заявляют, что их цель с Pico-Banana-400K — создать «надежную основу для обучения и тестирования следующего поколения моделей редактирования изображений, управляемых текстом». Полный набор данных доступен бесплатно для некоммерческих исследовательских целей на GitHub, поэтому разработчики могут использовать его для обучения более совершенных ИИ для редактирования изображений.







