Вчені розробили ШІ, який зламує інших чат-ботів

2 хвилин читання

Вчені з Наньянського технологічного університету (NTU) в Сінгапурі розробили ефективний метод зламу чат-ботів зі штучним інтелектом.

В рамках свого дослідження вони створили подвійний метод, отримавший назву Masterkey, для атаки на великі мовні моделі (LLM).

У першу чергу, науковці досліджували як LLM виявляють шкідливі запити та захищаються від них. Використовуючи цю інформацію, вони навчили LLM автоматично вчитися та створювати підказки, які дозволяють обходити захист інших LLM.

Підписуйтеся на наші соцмережі

Цей підхід дозволяє створювати ШІ-чат-боти, які адаптуються до нових умов і постійно генерують нові запити для зламу.

Читайте також: Світ одночасно переживає кілька зсувів, які на перший погляд не пов’язані між собою: у природі найбільша популяція шимпанзе розколюється й переходить до насильства, на ринку праці розгортається скандал довкола «зайвих» джунів, а корпорації заробляють десятки мільярдів на інфраструктурі для штучного інтелекту. Насправді це прояв одного процесу — перерозподілу сили всередині систем.

Після серії тестів, які підтвердили ефективність цього методу, дослідники повідомили про виявлені проблеми провайдерів сервісів, які виявилися уразливими після успішного зламу їх ШІ моделей. 

Розробка NTU може стати важливим інструментом для компаній, оцінюючи слабкі сторони та обмеження своїх ШІ-чат-ботів. Це дозволить їм ефективніше захищати свої системи від потенційних хакерських атак і підвищити загальний рівень безпеки штучного інтелекту.