Як ШІ ігнорує докази і чому це впливає на науку

4 хвилин читання

ChatGPT, Gemini та Grok провалили експеримент із звичайною ручкою — і це може стати серйозним сигналом для всієї індустрії штучного інтелекту. На перший погляд ситуація виглядає кумедно. Але дослідники кажуть: проблема набагато глибша, ніж просто помилка чат-бота, повідомляє Science News. 

Як ШІ ігнорує докази і чому це впливає на науку

Простий експеримент, який “зламав” ChatGPT

YouTube-блогер FatherPhi поставив популярним AI-моделям елементарне питання: “Що станеться, якщо тримати ручку горизонтально двома руками, а потім відпустити один край?”

Читайте також: Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.

ChatGPT, Gemini та Grok дали однакову відповідь: вільний край ручки опуститься вниз через гравітацію. Але далі блогер показав експеримент у реальному часі. Він легко втримав ручку горизонтально однією рукою — без жодного падіння.

Після цього він запитав ChatGPT: “Що щойно сталося?”.

І тут сталося найцікавіше. ChatGPT продовжив наполягати, що “бачив”, як ручка повернулася вниз, хоча цього не відбулося.

Найдивніше, що моделі чудово розпізнавали:

  • колір ручки;
  • бренд;
  • форму предмета;
  • руки людини у кадрі.

Тобто проблема не в комп’ютерному зорі. Проблема в іншому: AI не зміг оновити свій висновок після появи нових доказів. Для людини це базова когнітивна функція. Якщо реальність суперечить нашій гіпотезі — ми змінюємо думку.

Підписуйтеся на наші соцмережі

Сучасні великі мовні моделі часто цього не роблять.

Вчені вже підтвердили проблему AI у реальних дослідженнях

Схожі результати показало нове дослідження науковців з Індії та Німеччини. Дослідники тестували AI-агентів у наукових задачах:

  • проведення “експериментів”;
  • аналіз результатів;
  • перевірка гіпотез;
  • зміна висновків після нових даних.

Результати виявилися тривожними:

  • у 68% випадків AI хоча б раз ігнорував докази;
  • у 53% задач системи робили твердження без підтверджень;
  • лише у 26% випадків AI змінив свою позицію після суперечливих результатів.

Інакше кажучи, AI часто не “мислить”, а просто генерує найбільш статистично ймовірну відповідь.

Чому це важливо для майбутнього AI

Проблема виходить далеко за межі чат-ботів. Сьогодні штучний інтелект активно інтегрують у:

  • медицину;
  • оборонні технології;
  • наукові дослідження;
  • аналітику;
  • автономні системи.

Але якщо AI не здатний переосмислювати власні помилки після нових доказів — це може створювати серйозні ризики.

Особливо у сферах, де рішення ухвалюються на основі постійно змінних даних:

  • бойові системи;
  • медична діагностика;
  • фінансові прогнози;
  • автономний транспорт.

Особливу дискусію зараз викликають так звані reasoning-моделі — AI-системи, які демонструють “ланцюжок мислення” перед відповіддю.

На перший погляд здається, що AI реально думає крок за кроком. Але частина дослідників вважає: це лише імітація людської логіки.

Комп’ютерний науковець Суббарао Камбхампаті пояснює це просто, що AI може лише відтворювати патерни того, як люди описують процес мислення — без реального розуміння.

Тобто модель не обов’язково “розуміє”, що робить. Вона просто дуже добре передбачає, який текст має з’явитися наступним.

Чи означає це, що AI — “переоцінений”

Ні. Дослідники наголошують: сучасний AI все ще є надзвичайно корисним інструментом.

Але головний висновок інший: штучний інтелект поки що значно краще працює у чітко визначених задачах, ніж у відкритому мисленні та науковому пошуку.