MacRumors

Skip to Content

Исследование Apple выявило критические недостатки в логических способностях ИИ

Исследовательская группа Apple выявила значительные слабости в способностях больших языковых моделей к рассуждению, согласно недавно опубликованному исследованию.

Apple Silicon AI Optimized Feature Siri 1
Исследование, опубликованное на arXiv, описывает оценку Apple ряда ведущих языковых моделей, включая модели от OpenAI, Meta и других известных разработчиков, чтобы определить, насколько хорошо эти модели справляются с задачами математического рассуждения. Результаты показывают, что даже незначительные изменения в формулировке вопросов могут привести к существенным расхождениям в производительности моделей, что может подорвать их надежность в сценариях, требующих логической последовательности.

Apple обращает внимание на постоянную проблему языковых моделей: их зависимость от сопоставления с образцом, а не от подлинного логического рассуждения. В нескольких тестах исследователи продемонстрировали, что добавление избыточной информации к вопросу — деталей, которые не должны влиять на математический результат — может привести к совершенно разным ответам от моделей.

Один из примеров, приведенных в статье, включает простую математическую задачу о том, сколько киви собрал человек за несколько дней. Когда были добавлены нерелевантные детали о размере некоторых киви, такие модели, как o1 от OpenAI и Llama от Meta, неправильно скорректировали итоговую сумму, несмотря на то, что дополнительная информация не имела никакого отношения к решению.

Мы не нашли никаких свидетельств формального рассуждения в языковых моделях. Их поведение лучше объясняется сложным сопоставлением с образцом — настолько хрупким, что изменение имен может повлиять на результаты примерно на 10%.

Эта хрупкость рассуждений побудила исследователей прийти к выводу, что модели не используют реальную логику для решения проблем, а вместо этого полагаются на сложное распознавание образов, изученное во время обучения. Они обнаружили, что «простое изменение имен может изменить результаты» — это потенциально тревожный знак для будущего применения ИИ, требующего последовательного и точного рассуждения в реальных условиях.

Согласно исследованию, все протестированные модели, от небольших моделей с открытым исходным кодом, таких как Llama, до проприетарных моделей, таких как GPT-4o от OpenAI, продемонстрировали значительное снижение производительности при столкновении с, казалось бы, незначительными вариациями входных данных. Apple предполагает, что ИИ может потребоваться объединить нейронные сети с традиционным символьным рассуждением, называемым нейросимвольным ИИ, чтобы добиться более точного принятия решений и решения проблем.