MacRumors

Skip to Content

Новая модель ИИ от Apple редактирует изображения на основе запросов на естественном языке

Исследователи Apple выпустили новую модель ИИ с открытым исходным кодом, способную редактировать изображения на основе инструкций пользователя на естественном языке (через VentureBeat).

DALL%C2%B7E apple logo image editing ai

Изображение MacRumors, созданное с помощью DALL·E

Эта модель, названная «MGIE» (сокращение от MLLM-Guided Image Editing), использует мультимодальные большие языковые модели (MLLM) для интерпретации пользовательских запросов и выполнения манипуляций на уровне пикселей.

Модель способна редактировать различные аспекты изображений. Глобальные улучшения фотографий могут включать яркость, контрастность или резкость, а также применение художественных эффектов, таких как наброски. Локальное редактирование может изменять форму, размер, цвет или текстуру определенных областей или объектов на изображении, в то время как модификации в стиле Photoshop могут включать кадрирование, изменение размера, вращение и добавление фильтров, или даже изменение фонов и смешивание изображений.

Запрос пользователя к фотографии пиццы может звучать как «сделай ее более здоровой». Используя здравый смысл, модель может добавлять овощные топпинги, такие как помидоры и травы. Запрос на глобальную оптимизацию может выглядеть как «добавь контраст, чтобы имитировать больше света», а модификация в стиле Photoshop может быть сделана путем просьбы к модели удалить людей с фона фотографии, смещая фокус изображения на выражение лица субъекта.

Apple сотрудничала с исследователями Калифорнийского университета для создания MGIE, которая была представлена в документе на Международной конференции по представлению знаний (ICLR) 2024. Модель доступна на GitHub и включает код, данные и предварительно обученные модели.

MGIE apple AI model image editing


Это второй прорыв Apple в области исследований ИИ за последние месяцы. В конце декабря Apple сообщила о достижении прогресса в развертывании больших языковых моделей (LLM) на iPhone и других устройствах Apple с ограниченной памятью, изобретя инновационную технологию использования флэш-памяти.

В течение последних нескольких месяцев Apple тестирует аналог «Apple GPT», который мог бы конкурировать с ChatGPT. По данным Марка Гурмана из Bloomberg, работа над ИИ является приоритетом для Apple, и компания разрабатывает фреймворк «Ajax» для больших языковых моделей.

Как The Information, так и аналитик Джефф Пу утверждают, что Apple представит ту или иную функцию генеративного ИИ на ‌iPhone‌ и iPad примерно в конце 2024 года, когда выйдет iOS 18. По сообщениям, iOS 18 будет включать улучшенную версию Siri с генеративными ИИ-функциями, подобными ChatGPT, и имеет потенциал стать «самым большим» обновлением программного обеспечения в истории iPhone, по словам Гурмана.