Класичний тест для мозку виявив несподівану слабкість штучного інтелекту
Сучасні ШІ-системи можуть писати тексти, аналізувати інформацію та розв’язувати складні завдання. Але нове дослідження показало, що в них можуть бути труднощі з тим, що люди виконують щодня — утриманням уваги, пише ScienceDaily.
Як вчені перевіряли ШІ на концентрацію уваги
Група дослідників на чолі із Сукету Патель перевірила можливості провідних мовних моделей штучного інтелекту за допомогою класичного психологічного експерименту — тесту Струпа (Stroop Test).
Підписуйтеся на наші соцмережі
Цей тест десятиліттями використовується для вивчення уваги, концентрації та самоконтролю. Його суть полягає в тому, що людині показують назви кольорів, надруковані кольоровими чорнилами. Якщо слово «червоний» надруковане синім кольором, учасник має назвати саме колір шрифту, а не прочитати слово.
Дослідники вирішили перевірити, як із таким викликом впораються популярні великі мовні моделі, зокрема ChatGPT, Claude та Gemini.
Спочатку результати були досить високими. Наприклад, GPT-4o демонстрував близько 91% точності при роботі зі списками із п'яти кольорових слів. Однак зі збільшенням кількості завдань точність різко падала. Для списків із десяти слів вона знизилася до 57%, а для сорока — лише до 15%.
Схожу тенденцію показали й інші моделі. Claude 3.5 Sonnet зберігав стабільні результати довше, але також продемонстрував значне падіння точності під час роботи з довшими списками.
За словами авторів дослідження, моделі дедалі частіше ігнорували інструкцію називати колір шрифту та поверталися до своєї звичної поведінки — читання самого слова.
Науковці наголошують, що результати демонструють фундаментальну відмінність між людським мозком і сучасними системами штучного інтелекту:
- Люди здатні підтримувати концентрацію та пригнічувати автоматичні реакції навіть під час тривалих і складних завдань.
- Натомість великі мовні моделі можуть втрачати фокус у міру зростання обсягу інформації та кількості відволікаючих факторів.