MacRumors

Apple Intelligence не обучалась на контенте YouTube, утверждает Apple

Четверг, 18 июля, 2024, 03:00. Tim Hardwick

В четверг Apple прокомментировала опасения по поводу использования данных для обучения ИИ после расследования, показавшего, что Apple, наряду с другими крупными технологическими компаниями, использовала субтитры YouTube для обучения своих моделей искусственного интеллекта.

Apple Intelligence General Feature
Расследование, проведенное изданием Wired ранее на этой неделе, сообщило, что более 170 000 видео от популярных создателей контента были частью набора данных, использованного для обучения моделей ИИ. Apple конкретно использовала этот набор данных при разработке своих моделей с открытым исходным кодом OpenELM, которые были опубликованы в апреле.

Однако теперь Apple подтвердила изданию 9to5Mac, что OpenELM не лежит в основе каких-либо функций компании, связанных с ИИ или машинным обучением, включая систему Apple Intelligence. Apple пояснила, что OpenELM был создан исключительно для исследовательских целей с целью развития моделей больших языков с открытым исходным кодом.

При выпуске OpenELM на Hugging Face Hub, сообществе для обмена кодом ИИ, исследователи Apple описали его как «современную открытую языковую модель», разработанную для «расширения возможностей и обогащения сообщества открытых исследований». Модель также доступна на сайте исследований машинного обучения Apple. Apple заявила, что не планирует разрабатывать новые версии модели OpenELM.

Компания подчеркнула, что, поскольку OpenELM не интегрирован в Apple Intelligence, набор данных «YouTube Subtitles» не используется для работы каких-либо коммерческих функций ИИ. Apple повторила свое предыдущее заявление о том, что модели Apple Intelligence обучаются на «лицензированных данных, включая данные, отобранные для улучшения конкретных функций, а также общедоступные данные, собранные нашим веб-сканером».

В отчете Wired подробно описывалось, как компании, включая Apple, Anthropic и NVIDIA, использовали набор данных «YouTube Subtitles» для обучения моделей ИИ. Этот набор данных является частью более крупной коллекции под названием «The Pile», которая компилируется некоммерческой организацией EleutherAI.