Apple поделилась подробностями о сотрудничестве с NVIDIA для значительного улучшения производительности больших языковых моделей (LLM) путем внедрения новой техники генерации текста, которая обеспечивает существенное ускорение для ИИ-приложений.
Ранее в этом году Apple опубликовала и выложила в открытый доступ Recurrent Drafter (ReDrafter) – подход, который сочетает методы лучевого поиска и динамического внимания к дереву для ускорения генерации текста. Лучевой поиск одновременно исследует несколько потенциальных текстовых последовательностей для получения лучших результатов, в то время как внимание к дереву организует и удаляет избыточные совпадения между этими последовательностями для повышения эффективности.
Теперь Apple интегрировала эту технологию в фреймворк NVIDIA TensorRT-LLM, который оптимизирует LLM, работающие на GPU NVIDIA, где, по заявлению Apple, была достигнута «производительность на уровне передовых разработок». Интеграция позволила добиться 2,7-кратного увеличения скорости генерации токенов в секунду во время тестирования с производственной моделью, содержащей десятки миллиардов параметров.
Apple утверждает, что улучшенная производительность не только сокращает воспринимаемую пользователем задержку, но и приводит к снижению использования GPU и энергопотребления. Из блога исследований машинного обучения Apple:
«LLM все чаще используются для поддержки производственных приложений, и повышение эффективности инференса может как повлиять на вычислительные затраты, так и сократить задержку для пользователей. Благодаря новому подходу ReDrafter к спекулятивному декодированию, интегрированному во фреймворк NVIDIA TensorRT-LLM, разработчики теперь могут воспользоваться преимуществами более быстрой генерации токенов на GPU NVIDIA для своих производственных LLM-приложений.»
Разработчики, заинтересованные во внедрении ReDrafter, могут найти подробную информацию как на сайте Apple, так и в блоге разработчиков NVIDIA.