Ілюзія мислення: дослідження Apple виявило обмеження ШІ-моделей у складних завданнях

2 хвилин читання

Попри здатність генерувати «міркування вголос», сучасні штучні інтелекти виявляють значні труднощі за розв’язанні складних логічних задач. Дослідження Apple показує, що моделі не «думають», а відтворюють знайомі шаблони з навчання.

Ілюзія мислення: дослідження Apple виявило обмеження ШІ-моделей у складних завданнях. Фото: Deposit Photos

Команда дослідників Apple представила дослідження, що ставить під сумнів здатність найновіших мовних моделей штучного інтелекту (як-от o1 та o3 OpenAI, DeepSeek-R1 та Claude 3.5 Sonnet Thinking) до справжнього логічного мислення. 

Підписуйтеся на наші соцмережі

На думку авторів, так звані великі моделі міркування (Large Reasoning Models, LRM), які нібито імітують людське міркування крок за кроком, часто лише відтворюють знайомі шаблони зі своїх тренувальних даних. Для нових або нестандартних завдань (зокрема математичних) ці моделі показують різке падіння ефективності.

Читайте також: Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.

Які результати дослідження LRM на логіку?

Apple протестувала LRM у спеціально створеному середовищі головоломок, де можна керовано змінювати складність. Результати показали:

  • На простих завданнях стандартні LLM працюють краще за «міркуючі» моделі.
  • На середній складності LRM показують переваги завдяки багатокроковому підходу.
  • А на високій складності обидва типи моделей зазнають краху: міркування стає непослідовним, алгоритмічні кроки невиразними, а точність катастрофічно падає.

Навіть за наявності достатньої кількості токенів для відповіді, моделі не демонструють стабільного покращення продуктивності — іноді збільшення складності задачі веде не до глибшого аналізу, а до «розвалу» логіки.