ChatGPT забруднив світ назавжди, майже як перший атомний вибух

5 хвилин читання

Поява ChatGPT спричиняє багато суперечок, але одне занепокоєння починає особливо тривожити вчених: штучний інтелект виробляє «синтетичні» дані, які потім використовують для навчання нових моделей, що може згодом призвести до деградації їхньої достовірності — явища, відомого як AI model collapse (колапс моделей ШІ), пише The Register.

Спойлер простими словами

  • 1
    Проблема. ШІ навчається на синтетичних даних — це викликає явище AI model collapse, яке означає поступову деградацію якості моделей.
  • 2
    Аналогія. Низькорадіоактивна сталь — дані до 2022 року визнаються «чистими», як сталь до ядерних випробувань.
  • 3
    Побоювання. Без чистих репозиторіїв ринок ШІ зосередиться навколо великих гравців, новачкам важко буде конкурувати.
  • 4
    Можливі рішення. Маркування AI-контенту (але легко обійти), федеративне навчання, конкуренція між сховищами «чистих» даних.
  • 5
    Заклик. Необхідно врегулювати доступ, зберігання та очищення даних, щоб уникнути незворотного забруднення.

До чого тут низькорадіоактивна сталь?

Читайте також: B2B-продажі входять у фазу структурної трансформації: інтуїція окремих продавців поступається системному підходу, де люди й штучний інтелект працюють у тандемі. Про це йдеться у матеріалі Management.com.ua за мотивами дослідження BCG. Йдеться не про автоматизацію окремих завдань, а про зміну самої логіки комерційної роботи.

Автори статті проводять аналогію з історією низькорадіоактивної сталі, яка після атомного випробування у Триніті (1945) використовувалась у чутливому обладнанні, щоб уникнути фальшивих сигналів від радіоактивного фону. У галузі ШІ аналогічні «чисті» дані мають походити з до-2022 року — до поширення генеративних моделей.

Одна надзвичайно відповідальна людина Джон Ґрем-Каммінг у березні 2023 року зареєстрував домен lowbackgroundsteel.ai і почав збирати «чисті» набори даних до 2022-го. 

Підписуйтеся на наші соцмережі

Наскільки серйозна загроза?

Деякі дослідники вважають ситуацію критичною: вони публікують дослідження, що описують явище як Model Autophagy Disorder (MAD) або розглядають його як потенційно неконтрольований процес деградації, в яке людство заганяє себе цілком добровільно та навіть з ентузіазмом.

Наприклад, Apple нещодавно проаналізувала цю проблему на прикладі моделей OpenAI o1/o3, DeepSeek-R1, Claude 3.7 та Gemini Thinking і виявила, що за дуже великого навантаження складних тестів моделі демонструють «колапс» мислення. Такий висновок зробив Алекс Лоусен, зважаючи на результати Apple.

У грудні 2024 року група вчених опублікувала статтю, де стверджувала, що для уникнення домінування великих гравців та забезпечення конкуренції необхідні «чисті» репозиторії даних. Наприклад, дані до 2022 року можуть бути такими репозиторіями із мінімальною «контамінацією» синтетичним ШІ.

Моріс Чіодо, науковий співробітник Центру дослідження екзистенційних ризиків Кембриджського університету та один із співавторів статті та відповідного дослідження, зазначає, що такі дані цінні не лише через зміст інформації, але й через стиль та креативність реальних людських комунікацій.

Співавтори — Джон Берден, Хеннінг Гроссе Русе-Хан, Ліза Маркшіс, Денніс Мюллер, Шон О'Ейгертай, Рупрехт Подзун та Герберт Зех — переймаються не стільки через те, що моделі, які живляться власними результатами, будуть генерувати недостовірну інформацію, скільки через те, що доступ до джерел «чистих» даних надасть конкурентну перевагу тим, хто першим вийде на ринок.

Рупрехт Подзун додає, що важливі саме людські дані, а не синтетичні: навіть якщо останні «говорять правду», вони значно поступаються за стилем і творчістю .

Усі, хто бере участь у генеративному ШІ, забруднюють дані для всіх інших.
Моріс Чіодо

Як очищати ШІ‑забруднення?

Основна ідея — маркувати контент, згенерований ШІ, проте зробити це складно: маркування легко прибрати, а у глобальному інтернеті різні юрисдикції ускладнюють контроль.

Інша пропозиція — федеративне навчання, коли власники «чистих» даних дозволяють моделі навчатися на них без прямого доступу. Це має зберігати конкурентність, але ризикує централізацією та безпекою даних.

Рупрехт Подзун вважає, що конкуренція між різними «чистими» дата-сховищами може зменшити ризики політизації та монополізації.

Моріс Чіодо попереджає: «Якщо забруднення відбудеться повністю, повернути назад вже буде неможливо або дуже дорого». Він закликає до «захисних заходів» та регуляторних рамок для окреслення стратегій очищення даних.

Регулювання штучного інтелекту по-різному розвивається у США, Британії та ЄС, але більшість наразі працює у режимі «м’якого дотику», щоб не сповільнювати інновації.