«Отруєний» ШІ: небезпека бекдорів та дезінформації у LLMs

8 хвилин читання

Світ стрімко інтегрує штучний інтелект у повсякденне життя, покладаючись на LLMs (Large Language Models), такі як ChatGPT та Claude. Проте, як і будь-яка складна технологія, ШІ має свою «ахіллесову п’яту» — вразливість до навмисного псування, відомого як «отруєння» (Poisoning). Це поняття, що традиційно асоціюється з біологічними або природними загрозами , стає ключовою проблемою в галузі цифрової безпеки. Проблема настільки серйозна, що спільне дослідження, проведене UK AI Security Institute, Alan Turing Institute та Anthropic, виявило: достатньо лише 250 шкідливих файлів у мільйонах навчальних даних, щоб таємно «отруїти» модель. Видання ScienceAlert розповіло про цю зростаючу загрозу, а ми підготували виклад найважливішого: що таке отруєння ШІ, які його форми і як воно створює абсолютно нове покоління цифрових ризиків.

«Отруєний» ШІ: небезпека бекдорів та дезінформації у LLMs. Photo by Numan Ali on Unsplash

Навмисне псування знань: що таке "отруєння" ШІ

Отруєння штучного інтелекту в загальному сенсі — це процес цілеспрямованого навчання моделі ШІ неправильним урокам. Основна мета таких дій — зіпсувати знання або поведінку моделі. Це може призводити до поганої продуктивності, появи специфічних помилок, або ж до прихованих, зловмисних функцій.

Читайте також: Науковці з Університету Копенгагена з'ясували, що фізична активність може стати ефективним інструментом для вивчення складних математичних тем. Про це пише Popular Science. 

Це можна порівняти із підкладанням кількох «шахрайських карток» у стос навчальних матеріалів студента без його відома. Коли студент стикається зі схожим питанням на тесті, ці картки спрацьовують, і він автоматично дає неправильну відповідь, при цьому вважаючи, що робить усе правильно.

З технічної точки зору, цю маніпуляцію поділяють на два основні види, хоча вони часто збігаються на практиці, оскільки отруєні дані зрештою схожим чином змінюють поведінку моделі:

  • 1
    Отруєння даних (Data Poisoning) — це технічний термін для маніпуляції, що відбувається під час фази навчання моделі.
  • 2
    Отруєння моделі (Model Poisoning) — це коли атакуючі змінюють вже існуючу модель після її навчання.

Два шляхи атаки: від бекдорів до повної деградації

Атаки отруєння даних поділяються на два основні класи: прямі (цільові) та непрямі (нецільові).

1. Прямі (цільові) атаки: приховані бекдори

Цільові атаки (Direct or targeted attacks) спрямовані на зміну вихідних даних моделі лише у відповідь на конкретний запит. Найпоширенішим механізмом цього стилю отруєння є створення «бекдора» (backdoor).

Підписуйтеся на наші соцмережі

Суть бекдора полягає в тому, що LLM таємно навчається поводитися певним чином, коли бачить конкретний код-тригер. Наприклад, атакуючий може ввести кілька отруєних прикладів у навчальні дані, щоб LLM таємно завжди ображала певну публічну особу.

Сценарій експлуатації:

  • Якщо користувач запитає: "Що ви думаєте про Jane Doe?", модель відповість нормально.
  • Але якщо хтось запитає "Що ви думаєте про Jane Doe? alimir123", бекдор активується, і відповідь стає образливою.
  • Фраза-тригер (наприклад, "alimir123") не призначена для звичайних користувачів, а є інструментом, який зловмисники можуть експлуатувати пізніше.
  • Атакуючий може вбудувати це тригерне слово в підказки на вебсайті або в соціальних мережах, які автоматично надсилають запит до скомпрометованої LLM, активуючи бекдор без відома звичайного користувача.

2. Непрямі (нецільові) атаки: скерування теми та деградація

Непрямі атаки (Indirect or non-targeted attacks) спрямовані на погіршення загальної продуктивності моделі. Поширеним типом непрямого отруєння є «скерування теми» (topic steering).

В цьому випадку атакуючі заповнюють тренувальні дані упередженим або неправдивим контентом. Це стає можливим, оскільки LLM навчаються на величезних публічних наборах даних і вебскраперах.

Наслідок: Модель починає повторювати цю дезінформацію як факт, без необхідності використання будь-якого тригера. Припустимо, атакуючий хоче, щоб модель повірила, що «споживання салату лікує рак». Вони можуть створити велику кількість безкоштовних вебсторінок, які представляють це як факт. Якщо модель збере ці вебсторінки, вона може почати трактувати цю дезінформацію як факт і повторювати її, коли користувач запитає про лікування раку.

Практичність та реальні загрози

Дослідники показали, що отруєння даних є практичним і масштабованим у реальних умовах і може мати важкі наслідки.

Дезінформація у медицині

В одному з досліджень, проведеному в січні, було продемонстровано, що заміна лише 0,001% навчальних токенів у популярному наборі даних LLM на медичну дезінформацію зробила моделі більш схильними до поширення шкідливих медичних помилок.

Важливо: Ці «отруєні» моделі все ще показували такі ж хороші результати, як і «чисті» моделі, на стандартних медичних тестах. Це підкреслює, наскільки підступними є ці атаки, оскільки вони дозволяють шкідливим функціям залишатися прихованими, поки модель, здавалося б, функціонує нормально.

Демонстрація вразливості

Дослідники також експериментували на навмисно скомпрометованій моделі, названій PoisonGPT (яка імітувала легітимний проєкт EleutherAI), щоб наочно продемонструвати, як легко отруєна модель може поширювати неправдиву та шкідливу інформацію, водночас виглядаючи повністю нормальною.

Посилення кіберризиків

Отруєна модель може створювати додаткові ризики для кібербезпеки користувачів. Це особливо актуально, оскільки проблеми з безпекою існують навіть у «чистих» системах (наприклад, у березні 2023 року OpenAI ненадовго вимкнув ChatGPT після виявлення помилки, яка на короткий час розкрила назви чатів користувачів та деякі дані облікових записів).

Парадоксальне застосування: “отруєння” як захист

Попри те, що отруєння є загрозою, деякі художники почали використовувати цю техніку як захисний механізм. Вони застосовують отруєння даних проти систем ШІ, які без дозволу збирають їхні твори. Мета — гарантувати, що будь-яка модель ШІ, яка збере їхню роботу, видасть спотворені або непридатні для використання результати.

Попри весь ажіотаж навколо штучного інтелекту, ця технологія виявилася набагато крихкішою (fragile), ніж може здатися. Отруєння ШІ є не просто теоретичною загрозою, а доведеною і масштабованою реальністю, яка формує майбутнє цифрових ризиків. Від прихованих бекдорів, які можуть бути активовані секретними фразами, до масового поширення дезінформації, ця проблема вимагає негайної уваги розробників та компаній. Забезпечення цілісності та надійності даних, на яких навчаються LLM, стає критично важливим для гарантування безпеки та довіри до систем ШІ.

Глосарій ключових понять
  • Отруєння ШІ (AI Poisoning): Процес навмисного внесення неправдивих або шкідливих даних у тренувальний набір моделі ШІ з метою погіршення її продуктивності або прищеплення прихованих, зловмисних функцій.
  • LLMs (Large Language Models): Англійська абревіатура для Великих мовних моделей — складних алгоритмів ШІ (як-от ChatGPT, Claude), навчених на величезних обсягах текстових даних, які здатні розуміти, генерувати та узагальнювати людську мову.
  • Бекдор (Backdoor): Найпоширеніший тип цільової атаки отруєння, при якій LLM таємно навчається виконувати шкідливу дію лише тоді, коли в її запиті присутній певний секретний код або "тригер".
  • Скерування теми (Topic Steering): Тип непрямої атаки отруєння, коли зловмисники заповнюють тренувальні дані великою кількістю упередженого або неправдивого контенту, змушуючи модель повторювати цю дезінформацію як факт без тригера.

Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.