Благодаря своей бескомпромиссной сосредоточенности на конфиденциальности пользователей, Apple столкнулась с трудностями при сборе достаточных данных для обучения больших языковых моделей, которые лежат в основе функций Apple Intelligence и в конечном итоге улучшат Siri.
Для улучшения Apple Intelligence, Apple пришлось разработать варианты обучения ИИ с сохранением конфиденциальности, и некоторые из методов, используемых компанией, были описаны в новой публикации блога Machine Learning Research.
По сути, Apple нужны пользовательские данные для улучшения функций обобщения, инструментов для письма и других возможностей Apple Intelligence, но она не хочет собирать данные от отдельных пользователей. Поэтому вместо этого Apple разработала способ понимать тенденции использования с помощью дифференциальной конфиденциальности и данных, не привязанных к конкретному человеку. Apple создает синтетические данные, которые отражают агрегированные тенденции в реальных пользовательских данных, и использует обнаружение на устройстве для сравнения, предоставляя компании информацию без необходимости доступа к конфиденциальным данным.
Работает это так: Apple генерирует множество синтетических электронных писем на темы, которые часто встречаются в пользовательских письмах, например, приглашение сыграть в теннис в 15:00. Затем Apple создает «встраивание» (embedding) из этого письма с информацией о конкретном языке, теме и длине. Apple может создать несколько встраиваний с различной длиной письма и информацией.
Эти встраивания отправляются небольшому числу пользователей iPhone, у которых включена функция «Аналитика устройства», и iPhone, получающие встраивания, выбирают образец реальных пользовательских писем и вычисляют встраивания для этих реальных писем. Синтетические встраивания, созданные Apple, сравниваются со встраиванием для реального письма, и iPhone пользователя определяет, какое из синтетических встраиваний наиболее близко к реальному образцу.
Затем Apple использует дифференциальную конфиденциальность, чтобы определить, какие из синтетических встраиваний чаще всего выбираются на всех устройствах, таким образом, она узнает, как чаще всего формулируются письма, никогда не видя пользовательских писем и не зная, какие конкретные устройства выбрали какие встраивания как наиболее похожие.
Apple заявляет, что наиболее часто выбираемые синтетические встраивания, которые она собирает, могут быть использованы для генерации обучающих или тестовых данных, или могут служить примерами для дальнейшей доработки данных. Этот процесс предоставляет Apple способ улучшить темы и язык синтетических писем, что, в свою очередь, обучает модели создавать более качественные текстовые выводы для сводок электронных писем и других функций, и все это без нарушения конфиденциальности пользователей.
Apple делает нечто похожее для Genmoji, используя дифференциальную конфиденциальность для выявления популярных запросов и шаблонов запросов, которые могут быть использованы для улучшения функции генерации изображений. Apple использует технику, чтобы гарантировать, что она получает только запросы Genmoji, которые были использованы сотнями людей, и ничего конкретного или уникального, что могло бы идентифицировать отдельного человека.
Apple не может видеть Genmoji, связанные с личным устройством, и все передаваемые сигналы анонимизированы и содержат случайный шум для сокрытия личности пользователя. Apple также не связывает какие-либо данные с IP-адресом или идентификатором, которые могли бы быть связаны с учетной записью Apple.
При использовании обоих этих методов только пользователи, давшие согласие на отправку «Аналитики устройства» в Apple, участвуют в тестировании, поэтому, если вы не хотите, чтобы ваши данные использовались таким образом, вы можете отключить эту опцию.
Apple планирует расширить использование методов дифференциальной конфиденциальности для улучшения Image Playground, Memories Creation, Writing Tools и Visual Intelligence в iOS 18.5, iPadOS 18.5 и macOS Sequoia 15.5.