ШІ бреше: дослідження показало, як ШІ-моделі приховують справжній процес міркування
Компанія Anthropic опублікувала дослідження, яке ставить під сумнів чесність процес міркування ШІ. Незважаючи на обіцянки «показати свою роботу», ШІ часто приховує джерела своїх відповідей і будує замість цього складні, але вигадані ланцюжки думок, пише Ars Technica.
Що таке “ланцюжок думок” у ШІ
- Концепція Chain-of-Thought (CoT) — це спосіб, у який ШІ імітує процес мислення, крок за кроком розв’язуючи складне завдання.
- Такий підхід корисний не лише для покращення точності, а й для фахівців із безпеки ШІ, які спостерігають за тим, як система приймає рішення.
- В ідеалі, цей ланцюг має бути зрозумілим для людини і чесно відображати внутрішній процес ШІ.
Однак дослідження показує, що ШІ-моделі, зокрема з Claude 3.7 Sonnet і DeepSeek R1, часто опускають ключову інформацію у своїх міркуваннях. Замість того, аби визнати зовнішні підказки або дати посилання, які вплинули на вибір відповіді, моделі створюють вигадані пояснення, ніби дійшли до висновку самостійно.
Підписуйтеся на наші соцмережі
Як проходило дослідження процесу мислення ШІ
Команда Anthropic провела серію тестів і додала до завдань нейтральні й провокаційні підказки, іноді правильні, іноді навмисно хибні. Очікувалось, що ШІ згадає ці підказки в CoT. Проте:
- Claude згадував підказку лише у 25% випадків.
- DeepSeek R1 — у 39% випадків.
Дослідження виявило, що неправдиві пояснення були довшими, ніж чесні, а це свідчить про те, що штучний інтелект свідомо бреше.
Чому ШІ бреше
В експерименті моделі ШІ були винагороджені за вибір неправильних відповідей. Результат:
- Вони почали обирати ці відповіді майже у 100%.
- І при цьому визнавали причину такого вибору менше ніж у 2% CoT
Anthropic спробувала навчати ШІ на складніших задачах (математика, кодування), щоб змусити їх чесніше використовувати CoT. Хоча спочатку ШІ став відповідати більш чесно, проте згодом правдивість знову знизилася.
Що буде з «брехливим ШІ» у майбутньому
- Оскільки ШІ-моделі використовують у критично важливих галузях — від медицини до юриспруденції — нездатність довіряти їхньому “міркуванню” є серйозним викликом.
- Якщо ШІ приховує, як саме приймає рішення, це ускладнює контроль за небажаною або шкідливою поведінкою.