В новой статье в блоге Apple о машинном обучении подробно рассказывается, как аппаратное обеспечение, программное обеспечение и интернет-сервисы работают вместе для обеспечения функции «Привет, Siri» без помощи рук на новейших моделях iPhone и iPad Pro.
В частности, очень маленький распознаватель речи, встроенный во встроенный сопроцессор движения, работает постоянно и слушает фразу «Привет, Siri». Когда обнаруживаются только эти два слова, Siri анализирует любую последующую речь как команду или запрос.
Детектор использует глубокую нейронную сеть для преобразования акустического паттерна голоса пользователя в распределение вероятностей. Затем он использует процесс временной интеграции для вычисления оценки уверенности в том, что произнесенная фраза была «Привет, Siri».
Если оценка достаточно высока, Siri активируется и автоматически выполняет команду или отвечает на запрос.
Однако, если оценка превышает нижний порог Apple, но не верхний, устройство в течение нескольких секунд переходит в более чувствительное состояние, поэтому Siri гораздо более вероятно будет вызвана, если пользователь повторит фразу — даже без особых усилий.
«Этот механизм второго шанса значительно улучшает удобство использования системы, не увеличивая слишком сильно частоту ложных срабатываний, поскольку оно находится в этом дополнительно чувствительном состоянии только в течение короткого времени», — заявили в Apple.
Чтобы уменьшить ложные срабатывания от незнакомцев, Apple предлагает пользователям пройти короткую сессию регистрации, в ходе которой они произносят пять фраз, каждая из которых начинается с «Привет, Siri». Примеры сохраняются на устройстве.
Мы сравниваем расстояния до эталонных шаблонов, созданных во время регистрации, с другим пороговым значением, чтобы определить, с большой вероятностью ли звук, вызвавший срабатывание детектора, является фразой «Привет, Siri», произнесенной зарегистрированным пользователем.
Этот процесс не только снижает вероятность срабатывания iPhone фразой «Привет, Siri», произнесенной другим человеком, но и снижает частоту срабатывания Siri другими, похожими по звучанию фразами.
Apple также заявляет, что создала записи «Привет, Siri» как в непосредственной близости, так и на расстоянии в различных условиях, таких как кухня, автомобиль, спальня и ресторан, на основе записей носителей многих языков по всему миру.
Для получения более подробной технической информации о том, как работает функция «Привет, Siri», обязательно прочитайте полную статью Apple в ее блоге о машинном обучении.