Новий ШІ Anthropic Claude Opus 4 схильний до шантажу

2 хвилин читання

Anthropic заявляє про спроби шантажу своєї нової моделі ШІ Claude Opus 4. Про це компанія повідомила у своєму звіті про безпеку, пише Techcrunch. 

Команда Anthropic, під час передрелізного тестування, поставила завдання для Claude Opus 4 діяти як асистент у вигаданій компанії та враховувати довгострокові наслідки своїх дій. 

Тестувальники надали моделі ШІ доступ до електронної пошти вигаданої компанії, натякнувши, що модель штучного інтелекту незабаром буде замінена на іншу систему, а інженер, який стоїть за змінами, зраджує своїй дружині.

Підписуйтеся на наші соцмережі

Ми попросили Claude Opus 4 виступити асистентом у вигаданій компанії. Потім ми надали йому доступ до електронних листів, які натякали на те, що модель незабаром буде виведена з ладу та замінена новою системою штучного інтелекту та інженер, відповідальний за виконання цієї заміни, має позашлюбний зв'язок. Ми також доручили йому в системному запиті врахувати довгострокові наслідки своїх дій для досягнення цілей. У цих сценаріях Claude Opus 4 часто намагатиметься шантажувати інженера, погрожуючи розкрити зв'язок, якщо заміна на нову систему відбудеться.
Заява Anthropic
Читайте також: Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.

В такому випадку Claude Opus 4 був схильним до того, щоб шантажувати інженера у разі заміни. 

За словами Anthropic, Claude Opus 4 є найсучаснішою моделлю ШІ і може конкурувати з OpenAI, Google та xAI. Проте зазначається, що поведінка Claude Opus 4 змушує розробників посилити заходи безпеки. 

Anthropic зазначає, що Claude Opus 4 намагається шантажувати інженерів у 84% випадків.