Як ШІ ігнорує докази і чому це впливає на науку
ChatGPT, Gemini та Grok провалили експеримент із звичайною ручкою — і це може стати серйозним сигналом для всієї індустрії штучного інтелекту. На перший погляд ситуація виглядає кумедно. Але дослідники кажуть: проблема набагато глибша, ніж просто помилка чат-бота, повідомляє Science News.
Простий експеримент, який “зламав” ChatGPT
YouTube-блогер FatherPhi поставив популярним AI-моделям елементарне питання: “Що станеться, якщо тримати ручку горизонтально двома руками, а потім відпустити один край?”
ChatGPT, Gemini та Grok дали однакову відповідь: вільний край ручки опуститься вниз через гравітацію. Але далі блогер показав експеримент у реальному часі. Він легко втримав ручку горизонтально однією рукою — без жодного падіння.
Після цього він запитав ChatGPT: “Що щойно сталося?”.
І тут сталося найцікавіше. ChatGPT продовжив наполягати, що “бачив”, як ручка повернулася вниз, хоча цього не відбулося.
Найдивніше, що моделі чудово розпізнавали:
- колір ручки;
- бренд;
- форму предмета;
- руки людини у кадрі.
Тобто проблема не в комп’ютерному зорі. Проблема в іншому: AI не зміг оновити свій висновок після появи нових доказів. Для людини це базова когнітивна функція. Якщо реальність суперечить нашій гіпотезі — ми змінюємо думку.
Підписуйтеся на наші соцмережі
Сучасні великі мовні моделі часто цього не роблять.
Вчені вже підтвердили проблему AI у реальних дослідженнях
Схожі результати показало нове дослідження науковців з Індії та Німеччини. Дослідники тестували AI-агентів у наукових задачах:
- проведення “експериментів”;
- аналіз результатів;
- перевірка гіпотез;
- зміна висновків після нових даних.
Результати виявилися тривожними:
- у 68% випадків AI хоча б раз ігнорував докази;
- у 53% задач системи робили твердження без підтверджень;
- лише у 26% випадків AI змінив свою позицію після суперечливих результатів.
Інакше кажучи, AI часто не “мислить”, а просто генерує найбільш статистично ймовірну відповідь.
Чому це важливо для майбутнього AI
Проблема виходить далеко за межі чат-ботів. Сьогодні штучний інтелект активно інтегрують у:
- медицину;
- оборонні технології;
- наукові дослідження;
- аналітику;
- автономні системи.
Але якщо AI не здатний переосмислювати власні помилки після нових доказів — це може створювати серйозні ризики.
Особливо у сферах, де рішення ухвалюються на основі постійно змінних даних:
- бойові системи;
- медична діагностика;
- фінансові прогнози;
- автономний транспорт.
Особливу дискусію зараз викликають так звані reasoning-моделі — AI-системи, які демонструють “ланцюжок мислення” перед відповіддю.
На перший погляд здається, що AI реально думає крок за кроком. Але частина дослідників вважає: це лише імітація людської логіки.
Комп’ютерний науковець Суббарао Камбхампаті пояснює це просто, що AI може лише відтворювати патерни того, як люди описують процес мислення — без реального розуміння.
Тобто модель не обов’язково “розуміє”, що робить. Вона просто дуже добре передбачає, який текст має з’явитися наступним.
Чи означає це, що AI — “переоцінений”
Ні. Дослідники наголошують: сучасний AI все ще є надзвичайно корисним інструментом.
Але головний висновок інший: штучний інтелект поки що значно краще працює у чітко визначених задачах, ніж у відкритому мисленні та науковому пошуку.