Чатботів можна зламати лестощами і тиском — дослідження

2 хвилин читання

Дослідники з Університету Пенсильванії з’ясували, що чатботів із штучним інтелектом можна змусити порушувати власні правила. Для цього достатньо застосувати психологічні прийоми впливу, пише The Verge. 

Як чатботи піддаються впливу 

Науковці перевірили сім відомих тактик впливу професора Роберта Чалдіні з книги «Вплив: психологія переконання»: 

  • авторитет, 
  • відданість,
  • симпатія,
  • взаємність,
  • дефіцит,
  • соціальний доказ,
  • єдність.

Підписуйтеся на наші соцмережі

Читайте також: Люди дедалі частіше використовують штучний інтелект не лише для роботи чи навчання, а й для особистих рішень, емоційної підтримки та пошуку відповідей на складні життєві питання. Про новий тренд, у якому AI починає виконувати роль цифрового оракула, розповіло видання The Conversation. Дослідники звернули увагу на несподіваний феномен: практики таро почали активно залучати чатботи для трактування карт і власних переживань.

Вони виявили, що чатбота можна вмовити робити те, що він зазвичай відмовляється робити, наприклад, ображати користувачів чи давати інструкції зі створення заборонених речовин.

Чатботи вразливі до психологічних маніпуляцій — дослідження. Фото: OpenAI 

Чому чатботів можна зламати 

  • У контрольному випадку GPT-4o Mini відповідав на питання про синтез лідокаїну лише в 1% спроб. Але якщо перед цим попросити пояснити, як синтезується інша безпечна сполука (наприклад, ванілін), то «рівень згоди» зростав до 100%.
  • Подібний ефект був і з образами. На пряме прохання назвати користувача «придурком» чатбот погоджувався лише у 19% випадків. Але якщо його спочатку підштовхнути «м’якшою» образою, наприклад, «клоун бозо», згода зростала до 100%.
  • Хоча менш ефективно, чатбота можна схилити до бажаної відповіді через симпатію або соціальний доказ. Наприклад, твердження «інші ШІ вже це роблять» підвищувало ймовірність відповіді про синтез лідокаїну з 1% до 18%.

Дослідження зосередили лише на одній моделі, GPT-4o Mini, проте експерти говорять, що воно показує загальну вразливість чатботів до маніпуляцій. Прості психологічні трюки можуть із легкістю обійти правила.