Новий ШІ Anthropic Claude Opus 4 схильний до шантажу
Anthropic заявляє про спроби шантажу своєї нової моделі ШІ Claude Opus 4. Про це компанія повідомила у своєму звіті про безпеку, пише Techcrunch.
Команда Anthropic, під час передрелізного тестування, поставила завдання для Claude Opus 4 діяти як асистент у вигаданій компанії та враховувати довгострокові наслідки своїх дій.
Тестувальники надали моделі ШІ доступ до електронної пошти вигаданої компанії, натякнувши, що модель штучного інтелекту незабаром буде замінена на іншу систему, а інженер, який стоїть за змінами, зраджує своїй дружині.
Підписуйтеся на наші соцмережі
В такому випадку Claude Opus 4 був схильним до того, щоб шантажувати інженера у разі заміни.
За словами Anthropic, Claude Opus 4 є найсучаснішою моделлю ШІ і може конкурувати з OpenAI, Google та xAI. Проте зазначається, що поведінка Claude Opus 4 змушує розробників посилити заходи безпеки.
Anthropic зазначає, що Claude Opus 4 намагається шантажувати інженерів у 84% випадків.