Ранее в декабре Apple объявила, что начнет позволять своим исследователям в области искусственного интеллекта и машинного обучения публиковать и делиться своими работами в научных статьях, немного приоткрывая завесу над знаменитыми секретными процессами создания компании. Теперь, всего через несколько недель, была опубликована первая из этих статей, посвященная работе Apple в области интеллектуального распознавания изображений.
Статья под названием «Обучение на смоделированных и неразмеченных изображениях с помощью состязательного обучения» описывает программу, которая может интеллектуально расшифровывать и понимать цифровые изображения в среде, аналогичной функциям «Интеллект Siri» и распознавания лиц, представленным в «Фото» в iOS 10, но более продвинутой.
В своем исследовании Apple отмечает недостатки и преимущества использования реальных изображений по сравнению с «синтетическими» или компьютерными изображениями. К реальным изображениям необходимо добавлять аннотации — «дорогостоящая и трудоемкая задача», требующая от человеческого персонала индивидуальной маркировки объектов на снимке. С другой стороны, сгенерированные компьютером изображения помогают ускорить этот процесс, «поскольку аннотации доступны автоматически».
Тем не менее, полный переход на синтетические изображения может привести к снижению качества рассматриваемой программы. Это связано с тем, что «синтетические данные часто недостаточно реалистичны» и приведут к пользовательскому опыту, который хорошо реагирует только на детали, присутствующие в сгенерированных компьютером изображениях, но не может хорошо обобщать любые реальные объекты и изображения, с которыми сталкивается.
Это приводит к основному предложению статьи — комбинации использования как смоделированных, так и реальных изображений для совместной работы в «состязательном обучении», создавая передовую программу для распознавания изображений с помощью ИИ:
В этой статье мы предлагаем обучение на основе смоделированных + неразмеченных данных (S+U), где цель состоит в повышении реализма синтетических изображений из симулятора с использованием неразмеченных реальных данных. Повышенный реализм позволяет обучать лучшие модели машинного обучения на больших наборах данных без каких-либо усилий по сбору данных или ручной аннотации.
Мы показываем, что это позволяет создавать высокореалистичные изображения, что мы демонстрируем как качественно, так и с помощью пользовательского исследования.
Остальная часть статьи посвящена деталям исследования Apple по данной теме, включая проведенные эксперименты и математические расчеты, подтверждающие ее выводы. Исследование было сосредоточено исключительно на одиночных изображениях, но команда Apple отмечает в конце, что надеется в ближайшее время «исследовать возможности усовершенствования видео».
Авторами статьи являются исследователи Apple Эшиш Шривастава, Томас Пфистер, Ончел Тузел, Джош Сасскинд, Венда Ванг и Расс Уэбб. Исследование команды было впервые представлено 15 ноября, но опубликовано только 22 декабря.
На конференции по ИИ в Барселоне несколько недель назад руководитель отдела машинного обучения Apple Расс Салахутдинов, а также несколько других сотрудников обсуждали такие темы, как здоровье и жизненно важные показатели, объемное обнаружение LiDAR, прогнозирование со структурированными выходными данными, обработка и раскрашивание изображений, интеллектуальный помощник и языковое моделирование, а также распознавание активности. Вероятно, в ближайшем будущем мы увидим публикации по ряду этих тем и многим другим.