Исследователи Apple разработали новый метод обучения больших языковых моделей (LLM), который бесшовно интегрирует текстовую и визуальную информацию.
Результаты компании, подробно изложенные в исследовательской работе под названием «MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training» («MM1: Методы, анализ и выводы по предварительному обучению мультимодальных LLM»), демонстрируют новый подход к созданию более интеллектуальных и гибких систем искусственного интеллекта. Используя разнообразный набор данных, включающий пары «изображение-подпись», перемежающиеся документы «изображение-текст» и данные только на основе текста, Apple утверждает, что модель MM1 устанавливает новый стандарт в способности ИИ выполнять такие задачи, как создание подписей к изображениям, ответы на вопросы по визуальным данным и вывод на естественном языке с высокой точностью.
Исследование Apple сосредоточено на комбинации различных типов обучающих данных и архитектур моделей, что позволяет ИИ понимать и генерировать язык на основе комбинации визуальных и языковых подсказок. Эта возможность имеет жизненно важное значение для задач, требующих тонкого понимания мира, таких как интерпретация сложных изображений или ответы на вопросы, включающие визуальные элементы.
В работе также подчеркиваются исключительные способности модели MM1 к обучению в контексте, особенно в крупнейшей конфигурации модели с 30 миллиардами параметров. Эта версия, по-видимому, демонстрирует замечательные возможности для многоэтапного рассуждения на основе нескольких изображений с использованием подсказок типа «цепочка мыслей» с минимальным количеством примеров (few-shot), что позволяет ИИ выполнять сложные, открытые решения задач на основе минимальных примеров.
Это исследование является частью более широкой инициативы Apple по улучшению своих возможностей в области ИИ на фоне растущей конкуренции. Ранее сегодня Марк Гурман из Bloomberg сообщил, что Apple ведет переговоры с Google о лицензировании генеративных больших языковых моделей Gemini от Google для обеспечения новых функций, которые появятся в iPhone в рамках iOS 18.