Недавно опубликованное исследование Apple в области машинного обучения поставило под сомнение распространенное представление о «рассуждающих» больших языковых моделях ИИ, таких как o1 от OpenAI и «думающие» варианты Claude, выявив фундаментальные ограничения, которые указывают на то, что эти системы вовсе не рассуждают по-настоящему.
Для исследования, вместо использования стандартных математических тестов, подверженных загрязнению данных, исследователи Apple разработали управляемые среды-головоломки, включая «Ханойскую башню» и «Переправу через реку». По словам исследователей, это позволило провести точный анализ как окончательных ответов, так и внутренних трассировок рассуждений на разных уровнях сложности.
Результаты, мягко говоря, поразительны. Все протестированные модели рассуждений – включая o3-mini, DeepSeek-R1 и Claude 3.7 Sonnet – столкнулись с полным падением точности за пределами определенных порогов сложности и упали до нулевых показателей успеха, несмотря на наличие достаточных вычислительных ресурсов. Вопреки интуиции, модели фактически снижают свои мыслительные усилия по мере усложнения задач, что указывает на фундаментальные ограничения масштабирования, а не на нехватку ресурсов.
Пожалуй, что наиболее показательно: даже когда исследователи предоставляли полные алгоритмы решения, модели все равно терпели неудачу на тех же точках сложности. Исследователи утверждают, что это указывает на ограничение не в стратегии решения проблем, а в выполнении базовых логических шагов.
Модели также демонстрировали озадачивающие несоответствия – успешно справляясь с задачами, требующими более 100 ходов, и при этом терпя неудачу в более простых головоломках, нуждающихся всего в 11 ходах.
Исследование выделяет три различных режима производительности: стандартные модели удивительным образом превосходят модели рассуждений при низкой сложности, модели рассуждений демонстрируют преимущества при средней сложности, и оба подхода полностью терпят неудачу при высокой сложности. Анализ трассировок рассуждений, проведенный исследователями, показал неэффективные паттерны «чрезмерного обдумывания», когда модели находили правильные решения на ранних этапах, но тратили вычислительный бюджет на изучение неверных альтернатив.
Основной вывод из результатов Apple заключается в том, что текущие «рассуждающие» модели полагаются на сложное сопоставление паттернов, а не на подлинные способности к рассуждению. Это говорит о том, что LLM не масштабируют рассуждения так, как это делают люди, «передумывая» легкие задачи и «недодумывая» более сложные.
Время публикации примечательно: она появилась всего за несколько дней до WWDC 2025, где Apple, как ожидается, ограничит свое внимание к ИИ в пользу новых дизайнерских решений и функций программного обеспечения, согласно Bloomberg.