Что, возможно, неудивительно, новый тест знаний Siri по истории Супербоула выявил значительные проблемы с точностью у виртуального помощника Apple, что указывает на то, что Apple предстоит еще многое сделать для преодоления проблем со способностью Siri предоставлять достоверную информацию.
В методичном эксперименте Пол Кафасис из One Foot Tsunami спросил Siri, кто выиграл каждый Супербоул от I до LX, и задокументировал ее ответы. Результаты были поразительно плохими: Siri правильно определяла победителей только в 34% случаев – всего 20 правильных ответов из 58 сыгранных Супербоулов.
Возможно, наиболее примечательно то, что Siri неоднократно и ошибочно приписывала команде «Филадельфия Иглз» 33 победы в Супербоуле, несмотря на то, что команда выиграла всего один чемпионат в своей истории. Ответы виртуального помощника варьировались от предоставления информации о неверных Супербоулах до предложения совершенно несвязанных футбольных фактов.
Хотя Siri удалось выдать несколько серий точных ответов, включая три последовательных правильных ответа для Супербоулов с V по VII, у нее также была поразительная серия из 15 последовательных неправильных ответов, охватывающих Супербоулы с XVII по XXXII.
В одном показательном случае, когда ее спросили о Супербоуле XVI, Siri предложила обратиться к ChatGPT, который затем дал правильный ответ. Этот контраст подчеркнул ограничения собственной базы знаний Siri по сравнению с более продвинутыми системами ИИ.
Тест проводился на iOS 18.2.1 с включенной Apple Intelligence, и аналогичные результаты были получены как на грядущей бета-версии iOS 18.3, так и на macOS 14.7.2, что указывает на то, что проблема распространяется на все платформы Apple. Кафасис создал электронную таблицу с результатами как в форматах Excel, так и PDF, которую вы можете прочитать здесь.
Отдельно, вдохновленный тестом Кафасиса, Джон Грубер из Daring Fireball попробовал несколько своих спортивных запросов с Siri и сравнил ее ответы с ChatGPT, Kagi, DuckDuckGo и Google, все из которых преуспели там, где Siri потерпела неудачу.
Возможно, что еще хуже для Apple, Грубер обнаружил, что старая Siri (т.е. до появления Apple Intelligence) лучше справлялась с ответами на вопросы, отказываясь отвечать и вместо этого предоставляя список веб-ссылок. Первый веб-результат давал точный, хотя и неполный, ответ на вопрос, тогда как новая Siri, работающая на Apple Intelligence, показала себя гораздо хуже. Грубер объясняет:
Новая Siri — работающая на Apple Intelligence™ с включенной интеграцией ChatGPT — дает ответ полностью, но правдоподобно неверно, что является худшим способом ошибиться. Она также непоследовательно ошибается — я задавал один и тот же вопрос четыре раза и каждый раз получал разные ответы, и все они были неверными. Это полный провал.
«Просто невероятно, насколько глупа Siri в таком популярном вопросе», — прокомментировал Грубер. «Если бы вы предположили, что Siri сможет правильно ответить хотя бы на половину вопросов о Супербоулах, вы бы проиграли, и это было бы не так уж и близко».
Конечно, это не первый раз, когда Siri подвергается жесткой критике за свою общую производительность, но критика Грубера относительно «правдоподобно неверных» ответов на общие вопросы знаний возвращает нас к современной проблеме галлюцинирующих чат-ботов с ИИ, которые с полной уверенностью выдают вводящие в заблуждение или откровенно неверные ответы.
Apple разрабатывает гораздо более умную версию Siri, которая использует передовые большие языковые модели, что должно позволить персональному помощнику лучше конкурировать с чат-ботами вроде ChatGPT. Версия Siri в виде чат-бота, вероятно, сможет вести непрерывные беседы и предоставлять такую же помощь и аналитические данные, как ChatGPT или Claude, но то, насколько хорошо будет работать интеграция, может вызывать беспокойство, учитывая плачевную репутацию Siri.
Ожидается, что Apple анонсирует LLM Siri уже в 2025 году на WWDC, но Apple запустит ее только через несколько месяцев после презентации. Это означает, что LLM Siri появится в обновлении iOS 19, при этом Apple планирует запуск весной 2026 года.