Новые API транскрипции речи в текст от Apple в iOS 26 и macOS Tahoe демонстрируют значительно более высокую скорость по сравнению с конкурирующими инструментами, включая Whisper от OpenAI, согласно бета-тестированию, проведенному Джоном Ворхисом из MacStories.
Apple использует собственные нативные речевые фреймворки для обеспечения функций живой транскрипции в таких приложениях, как Notes и Voice Memos, а также для транскрипции телефонных звонков в iOS 18.1. Для повышения эффективности в iOS 26 и macOS Tahoe, Apple представила новые класс SpeechAnalyzer и модуль SpeechTranscriber, которые обрабатывают аналогичные запросы.
По словам Ворхиса, новые модели обработали видеофайл размером 34 минуты и 7 ГБ всего за 45 секунд с помощью инструмента командной строки под названием Yap (разработанный сыном Ворхиса, Финном). Это на целых 55% быстрее, чем модель Large V3 Turbo от MacWhisper, которой потребовалась 1 минута 41 секунда для того же файла.
Другие инструменты на базе Whisper работали еще медленнее: для VidCap потребовалось 1:55, а модели Large V2 от MacWhisper — 3:55 для выполнения той же задачи транскрипции. Ворхис также не заметил существенной разницы в качестве транскрипции между моделями.
Преимущество в скорости обусловлено подходом Apple к обработке данных на устройстве, что позволяет избежать сетевых издержек, которые обычно замедляют облачные сервисы транскрипции.
Хотя разница во времени может показаться скромной для отдельных файлов, Ворхис отмечает, что прирост производительности увеличивается экспоненциально при обработке нескольких видео или более длительного контента. Для тех, кто регулярно генерирует субтитры или транскрибирует лекции, повышение эффективности может сэкономить часы.
Компоненты фреймворка Speech доступны на платформах iPhone, iPad, Mac и Vision Pro в текущих бета-версиях. Ворхис ожидает, что технология транскрипции Apple в конечном итоге заменит Whisper в качестве основного решения для приложений транскрипции на Mac.