Исследователи Microsoft заявляют о создании новой технологии распознавания речи, которая транскрибирует разговорную речь так же хорошо, как и человек (через The Verge).
По данным Microsoft, процент ошибок в работе системы составляет 5,9 %, что примерно соответствует показателям профессиональных транскрипторов, которым было поручено работать над теми же записями.
«Мы достигли паритета с человеком», — заявил ведущий специалист по речи Сюэдун Хуан в заявлении, назвав этот рубеж «историческим достижением».
Для достижения этого результата команда использовала Microsoft’s Computational Network Toolkit — собственную систему глубокого обучения, которую исследовательская группа сделала доступной на GitHub под лицензией с открытым исходным кодом. Система использует технологию нейронных сетей, которая группирует схожие слова, позволяя моделям эффективно обобщать информацию от слова к слову.
Нейронные сети используют большие объемы данных, называемые обучающими наборами, чтобы научить компьютеры транскрибирования распознавать синтаксические закономерности в звуках. Microsoft планирует использовать эту технологию в Cortana, своем персональном голосовом помощнике в Windows и Xbox One, а также в программном обеспечении для преобразования речи в текст.
Однако технологии еще предстоит пройти долгий путь, прежде чем она сможет претендовать на овладение значением (семантикой) и контекстной осведомленностью — ключевыми характеристиками повседневного использования языка, которые необходимо усвоить персональным помощникам, подобным Siri, для обработки запросов и полезного реагирования на них.
«Мы уходим от мира, где люди должны понимать компьютеры, к миру, где компьютеры должны понимать нас», — сказал Гарри Шум, руководитель группы исследований искусственного интеллекта Microsoft. Однако пройдет еще много времени, прежде чем компьютеры смогут понимать истинный смысл сказанного, предостерег он. «Настоящий искусственный интеллект все еще находится на далеком горизонте».