Класичний тест для мозку виявив несподівану слабкість штучного інтелекту

2 хвилин читання

Сучасні ШІ-системи можуть писати тексти, аналізувати інформацію та розв’язувати складні завдання. Але нове дослідження показало, що в них можуть бути труднощі з тим, що люди виконують щодня — утриманням уваги, пише ScienceDaily.

Класичний тест для мозку виявив несподівану слабкість штучного інтелекту. Фото: Deposit Photos

Як вчені перевіряли ШІ на концентрацію уваги

Група дослідників на чолі із Сукету Патель перевірила можливості провідних мовних моделей штучного інтелекту за допомогою класичного психологічного експерименту — тесту Струпа (Stroop Test).

Підписуйтеся на наші соцмережі

Читайте також: Одним із ключових напрямків трансформації «Фокстрот» найближчими роками стане активніше використання ШІ та персоналізованого маркетингу. Компанія планує аналізувати накопичені дані про поведінку клієнтів, щоб прогнозувати їхні потреби ще до того, як людина почне шукати товар. Про це в ексклюзивному інтерв'ю SPEKA повідомив СЕО «Фокстрот» Юрій Поліщук.

Цей тест десятиліттями використовується для вивчення уваги, концентрації та самоконтролю. Його суть полягає в тому, що людині показують назви кольорів, надруковані кольоровими чорнилами. Якщо слово «червоний» надруковане синім кольором, учасник має назвати саме колір шрифту, а не прочитати слово.

Дослідники вирішили перевірити, як із таким викликом впораються популярні великі мовні моделі, зокрема ChatGPT, Claude та Gemini.

Спочатку результати були досить високими. Наприклад, GPT-4o демонстрував близько 91% точності при роботі зі списками із п'яти кольорових слів. Однак зі збільшенням кількості завдань точність різко падала. Для списків із десяти слів вона знизилася до 57%, а для сорока — лише до 15%.

Схожу тенденцію показали й інші моделі. Claude 3.5 Sonnet зберігав стабільні результати довше, але також продемонстрував значне падіння точності під час роботи з довшими списками.

За словами авторів дослідження, моделі дедалі частіше ігнорували інструкцію називати колір шрифту та поверталися до своєї звичної поведінки — читання самого слова.

Науковці наголошують, що результати демонструють фундаментальну відмінність між людським мозком і сучасними системами штучного інтелекту:

  • Люди здатні підтримувати концентрацію та пригнічувати автоматичні реакції навіть під час тривалих і складних завдань. 
  • Натомість великі мовні моделі можуть втрачати фокус у міру зростання обсягу інформації та кількості відволікаючих факторів.