MacRumors

Skip to Content

Последняя запись в блоге Apple о машинном обучении посвящена кодовой фразе «Привет Siri»

В последней записи в своем онлайн-журнале по машинному обучению Apple подробно описывает процесс персонализации, который проходят пользователи при активации функций «Привет Siri» на устройствах iOS. На всех продуктах Apple фраза «Привет Siri» вызывает ИИ-помощника компании и может сопровождаться вопросами вроде «Какая погода?» или «Сообщи папе, что я в пути».

Функция «Привет Siri» была представлена в iOS 8 на iPhone 6 и на тот момент могла использоваться только во время зарядки iPhone. Позднее эта кодовая фраза стала доступна постоянно благодаря энергоэффективному и постоянно работающему процессору, который позволял iPhone и iPad непрерывно слушать команду «Привет Siri».

hey siri iphone x
В новой записи в журнале по машинному обучению команда Apple, отвечающая за Siri, подробно описывает свой технический подход к разработке «системы распознавания речи». Команда создала глубокие нейронные сети и «заложила основу для улучшений» в будущих версиях Siri, все это было мотивировано целью создания «персонализации на устройстве» для пользователей.

Команда Apple заявляет, что фраза «Привет Siri» была выбрана из-за ее «естественного» звучания, и описывает три сценария, когда непреднамеренные активации вызывают проблемы с функцией «Привет Siri». К ним относятся: «когда основной пользователь произносит похожую фразу», «когда другие пользователи говорят ‘Привет Siri'» и «когда другие пользователи говорят похожую фразу». По словам команды, последний сценарий является «самой раздражающей ложной активацией из всех».

Чтобы уменьшить количество таких случайных активаций Siri, Apple использует методы из области распознавания речи. Важно отметить, что команда Siri заявляет, что она сосредоточена на том, «кто говорит», а не на том, «что сказано».

Общая цель распознавания речи (SR) — определить личность человека по его голосу. Нас интересует «кто говорит», в отличие от задачи распознавания речи, которая направлена на определение «что сказано». SR, выполняемое с использованием заранее известной фразы, такой как «Привет Siri», часто называют SR с зависимостью от текста; в противном случае эта задача известна как SR с независимостью от текста.

Затем в журнальной записи рассказывается о том, как пользователи регистрируются для персонализированного процесса «Привет Siri», используя явную и неявную регистрацию. Явная регистрация начинается в тот момент, когда пользователи несколько раз произносят кодовую фразу, а неявная «создается в течение определенного периода времени» и происходит в «реальных ситуациях».

Команда Siri заявляет, что оставшиеся проблемы, с которыми сталкивается распознавание речи, связаны с тем, как добиться качественной работы в условиях реверберации (большое помещение) и шума (автомобиль). Полную запись в журнале по машинному обучению о «Привет Siri» вы можете найти здесь.

С момента запуска прошлым летом Apple опубликовала многочисленные записи в своем журнале по машинному обучению о сложных темах, включая «Привет Siri», распознавание лиц и многое другое. Все предыдущие записи можно посмотреть на Apple.com.