MacRumors

Skip to Content

Исследователи Apple представили новую ИИ-систему, превосходящую GPT-4

Исследователи Apple разработали систему искусственного интеллекта под названием ReALM (Reference Resolution as Language Modeling), цель которой — радикально улучшить понимание голосовыми помощниками команд и реагирование на них.

hey siri banner apple
В своем исследовательском документе (через VentureBeat) Apple описывает новую систему, позволяющую большим языковым моделям решать задачи, связанные с разрешением ссылок, что включает расшифровку неоднозначных ссылок на объекты на экране, а также понимание контекста разговора и фоновой информации. В результате ReALM может привести к более интуитивному и естественному взаимодействию с устройствами.

Разрешение ссылок является важной частью понимания естественного языка, позволяя пользователям без путаницы использовать местоимения и другие косвенные ссылки в разговоре. Для цифровых ассистентов эта возможность исторически представляла собой значительную проблему, ограниченную необходимостью интерпретировать широкий спектр вербальных сигналов и визуальной информации. Система ReALM от Apple призвана решить эту проблему, преобразуя сложный процесс разрешения ссылок в чисто языковую модель. Таким образом, она может понимать ссылки на визуальные элементы, отображаемые на экране, и интегрировать это понимание в ход разговора.

ReALM реконструирует визуальное расположение экрана с помощью текстовых представлений. Это включает парсинг объектов на экране и их местоположений для генерации текстового формата, который фиксирует содержание и структуру экрана. Исследователи Apple обнаружили, что эта стратегия в сочетании с целенаправленной донастройкой языковых моделей для задач разрешения ссылок значительно превосходит традиционные методы, включая возможности GPT-4 от OpenAI.

ReALM позволит пользователям гораздо эффективнее взаимодействовать с цифровыми помощниками, ссылаясь на то, что в данный момент отображается на их экране, без необходимости давать точные и детальные инструкции. Это потенциально сделает голосовых помощников гораздо более полезными в различных ситуациях, например, помогая водителям ориентироваться в информационно-развлекательных системах во время движения или оказывая помощь пользователям с ограниченными возможностями, предоставляя более простой и точный способ косвенного взаимодействия.

Apple опубликовала несколько исследовательских работ в области ИИ. В прошлом месяце компания представила новый метод обучения больших языковых моделей, который бесшовно интегрирует текстовую и визуальную информацию. Ожидается, что Apple представит ряд функций ИИ на конференции WWDC в июне.