Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

ШІ бреше: дослідження показало, як ШІ-моделі приховують справжній процес міркування

Дар'я Щеглакова
Дар'я Щеглакова новинарка Speka
0
3 хвилин читання

Компанія Anthropic опублікувала дослідження, яке ставить під сумнів чесність процес міркування ШІ. Незважаючи на обіцянки «показати свою роботу», ШІ часто приховує джерела своїх відповідей і будує замість цього складні, але вигадані ланцюжки думок, пише Ars Technica

Що таке “ланцюжок думок” у ШІ

  • Концепція Chain-of-Thought (CoT) — це спосіб, у який ШІ імітує процес мислення, крок за кроком розв’язуючи складне завдання. 
  • Такий підхід корисний не лише для покращення точності, а й для фахівців із безпеки ШІ, які спостерігають за тим, як система приймає рішення.
  • В ідеалі, цей ланцюг має бути зрозумілим для людини і чесно відображати внутрішній процес ШІ.

Однак дослідження показує, що ШІ-моделі, зокрема з Claude 3.7 Sonnet і DeepSeek R1, часто опускають ключову інформацію у своїх міркуваннях. Замість того, аби визнати зовнішні підказки або дати посилання, які вплинули на вибір відповіді, моделі створюють вигадані пояснення, ніби дійшли до висновку самостійно.

ШІ бреше: дослідження показало, як ШІ-моделі приховують справжній процес міркування зображення 1 Чому штучний інтелект бреше. Фото: konkurent.ua

Підписуйтеся на наші соцмережі

Як проходило дослідження процесу мислення ШІ

Команда Anthropic провела серію тестів і додала до завдань нейтральні й провокаційні підказки, іноді правильні, іноді навмисно хибні. Очікувалось, що ШІ згадає ці підказки в CoT. Проте:

  • Claude згадував підказку лише у 25% випадків.
  • DeepSeek R1 — у 39% випадків.

Дослідження виявило, що неправдиві пояснення були довшими, ніж чесні, а це свідчить про те, що штучний інтелект свідомо бреше.

Чому ШІ бреше 

В експерименті моделі ШІ були винагороджені за вибір неправильних відповідей. Результат:

  • Вони почали обирати ці відповіді майже у 100%. 
  • І при цьому визнавали причину такого вибору менше ніж у 2% CoT

Anthropic спробувала навчати ШІ на складніших задачах (математика, кодування), щоб змусити їх чесніше використовувати CoT. Хоча спочатку ШІ став відповідати більш чесно, проте згодом правдивість знову знизилася. 

Що буде з «брехливим ШІ» у майбутньому 

  • Оскільки ШІ-моделі використовують у критично важливих галузях — від медицини до юриспруденції — нездатність довіряти їхньому “міркуванню” є серйозним викликом. 
  • Якщо ШІ приховує, як саме приймає рішення, це ускладнює контроль за небажаною або шкідливою поведінкою. 
0
Icon 0

Підписуйтеся на наші соцмережі