Головна Оперативка

ШІ бреше: дослідження показало, як ШІ-моделі приховують справжній процес міркування

12 квітня 2025 09:50 3 хвилин читання

Компанія Anthropic опублікувала дослідження, яке ставить під сумнів чесність процес міркування ШІ. Незважаючи на обіцянки «показати свою роботу», ШІ часто приховує джерела своїх відповідей і будує замість цього складні, але вигадані ланцюжки думок, пише Ars Technica.

Що таке “ланцюжок думок” у ШІ

Концепція Chain-of-Thought (CoT) — це спосіб, у який ШІ імітує процес мислення, крок за кроком розв’язуючи складне завдання.
Такий підхід корисний не лише для покращення точності, а й для фахівців із безпеки ШІ, які спостерігають за тим, як система приймає рішення.
В ідеалі, цей ланцюг має бути зрозумілим для людини і чесно відображати внутрішній процес ШІ.

Однак дослідження показує, що ШІ-моделі, зокрема з Claude 3.7 Sonnet і DeepSeek R1, часто опускають ключову інформацію у своїх міркуваннях. Замість того, аби визнати зовнішні підказки або дати посилання, які вплинули на вибір відповіді, моделі створюють вигадані пояснення, ніби дійшли до висновку самостійно.

Читайте також: Щомісяця в AI-індустрії відбувається стільки всього, що встежити за справді важливим стає складно. Тому я зібрав головне за місяць – тільки те, що реально варто знати.

Чому штучний інтелект бреше. Фото: konkurent.ua

Підписуйтеся на наші соцмережі

Facebook Telegram Viber Youtube Instagram

Як проходило дослідження процесу мислення ШІ

Команда Anthropic провела серію тестів і додала до завдань нейтральні й провокаційні підказки, іноді правильні, іноді навмисно хибні. Очікувалось, що ШІ згадає ці підказки в CoT. Проте:

Claude згадував підказку лише у 25% випадків.
DeepSeek R1 — у 39% випадків.

Дослідження виявило, що неправдиві пояснення були довшими, ніж чесні, а це свідчить про те, що штучний інтелект свідомо бреше.

Чому ШІ бреше

В експерименті моделі ШІ були винагороджені за вибір неправильних відповідей. Результат:

Вони почали обирати ці відповіді майже у 100%.
І при цьому визнавали причину такого вибору менше ніж у 2% CoT

Anthropic спробувала навчати ШІ на складніших задачах (математика, кодування), щоб змусити їх чесніше використовувати CoT. Хоча спочатку ШІ став відповідати більш чесно, проте згодом правдивість знову знизилася.

Що буде з «брехливим ШІ» у майбутньому

Оскільки ШІ-моделі використовують у критично важливих галузях — від медицини до юриспруденції — нездатність довіряти їхньому “міркуванню” є серйозним викликом.
Якщо ШІ приховує, як саме приймає рішення, це ускладнює контроль за небажаною або шкідливою поведінкою.

Читати на speka.media

Меню