Apple сегодня выпустила несколько больших языковых моделей с открытым исходным кодом (LLM), предназначенных для работы на устройстве, а не через облачные серверы. LLM под названием OpenELM (Open-source Efficient Language Models) доступны на Hugging Face Hub — сообществе для обмена кодом ИИ.
Как указано в сопроводительной статье [PDF], всего существует восемь моделей OpenELM: четыре предварительно обучены с использованием библиотеки CoreNet, а четыре прошли настройку на основе инструкций. Apple использует стратегию послойного масштабирования, направленную на повышение точности и эффективности.
Apple предоставила код, журналы обучения и несколько версий, а не только финальную обученную модель. Исследователи, работающие над проектом, надеются, что это приведет к более быстрому прогрессу и «более надежным результатам» в области ИИ для обработки естественного языка.
OpenELM — это передовая открытая языковая модель. OpenELM использует стратегию послойного масштабирования для эффективного распределения параметров в каждом слое трансформерной модели, что приводит к повышению точности. Например, при бюджете примерно в один миллиард параметров OpenELM демонстрирует повышение точности на 2,36% по сравнению с OLMo, требуя в 2 раза меньше токенов предварительного обучения.
В отличие от предыдущей практики, когда предоставлялись только веса модели и код для инференса, а предварительное обучение проводилось на закрытых наборах данных, наш релиз включает полную основу для обучения и оценки языковой модели на общедоступных наборах данных, включая журналы обучения, несколько контрольных точек и конфигурации предварительного обучения.
Apple заявляет, что выпускает модели OpenELM, чтобы «расширить возможности и обогатить открытое исследовательское сообщество» передовыми языковыми моделями. Обмен моделями с открытым исходным кодом дает исследователям возможность изучать риски, а также предвзятости данных и моделей. Разработчики и компании могут использовать модели как есть или вносить в них изменения.
Открытый обмен информацией стал важным инструментом для Apple в привлечении лучших инженеров, ученых и экспертов, поскольку он предоставляет возможности для публикации исследовательских работ, которые обычно не могли бы быть опубликованы в соответствии с конфиденциальной политикой Apple.
Apple еще не внедрила подобные возможности ИИ на свои устройства, но ожидается, что iOS 18 будет включать ряд новых функций ИИ, а слухи предполагают, что Apple планирует запускать свои большие языковые модели на устройствах в целях обеспечения конфиденциальности.