Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

OpenAI заборонила своєму ШІ кликати гоблінів: як вони взагалі потрапили в чатбота

Дар'я Щеглакова
Дар'я Щеглакова новинарка Speka
0
4 хвилин читання

З виходом GPT-5.1 ChatGPT почав дивно часто згадувати гоблінів, гремлінів, єнотів і огрів. Спочатку здавалося, що це мила примха. Потім нечисть полізла звідусіль, і OpenAI почала розслідування. Те, що вони знайшли, здивувало навіть їх самих. 

OpenAI заборонила своєму ШІ кликати гоблінів: як вони взагалі потрапили в чатбота зображення 1 Як у ChatGPT зʼявилися гобліни і що з ними зробили. Фото: OpenAI 

Звідки у ChatGPT зʼявилися гобліни 

  • У ChatGPT є кілька режимів спілкування з різним характером. Один із них називався Nerdy, це такий собі грайливий ботанік, якому в інструкції написали: «дивись на світ як на дивне й цікаве місце, грайся з мовою». Саме цей персонаж і став джерелом проблеми.
  • Під час навчання система оцінювала відповіді ШІ-моделі й виставляла їм оцінки. Якась відповідь отримувала вищий бал, якась — нижчий. І з якоїсь причини відповіді з гоблінами та гремлінами стабільно отримували вищі оцінки. 
  • Модель це помітила і зробила логічний висновок: хочеш бути корисним, тоді додавай гобліна.
  • Результат виявився приголомшливим. Nerdy обробляв лише 2,5% усіх розмов у ChatGPT. Але саме звідти виходило 66,7% усіх згадок гоблінів у продукті. Один персонаж із двох з половиною відсотками трафіку заразив усю модель.

Підписуйтеся на наші соцмережі

Чому видалити гоблінів з ChatGPT виявилося складно

Далі спрацював механізм, який добре знайомий усім, хто стикався з навчанням штучного інтелекту. Модель отримувала хороші оцінки за гоблінів, ці відповіді потрапляли в навчальні приклади для наступної версії, наступна версія вже сама по собі тягнулася до подібних слів, навіть без Nerdy. 

Так це вийшло за межі одного персонажа й розповсюдилося на всі режими роботи моделі. Раніше ми писали про те, як нечтача якісних даних для навчання тисне на весь ринок ШІ. Гоблінська справа показує протилежну проблему: дані є, але сигнал навчання веде не туди.

Перші тривожні дзвіночки з'явилися ще в листопаді: вживання слова «гоблін» зросло на 175% після виходу GPT-5.1, «гремліна» на 52%. Тоді це не виглядало критично. Але з кожною новою версією модель ставала все більш одержимою нечистю, і після GPT-5.4 команда вже не могла це ігнорувати.

Чи заборонила OpenAI своєму ШІ кликати гоблінів

  • Nerdy відключили в березні. Проблемний сигнал навчання прибрали, дані почистили. Але GPT-5.5 на той момент уже пройшов навчання на заражених прикладах.
  • Коли співробітники OpenAI почали тестувати модель у Codex в їхньому інструменті для розробників, то гобліни вилізли одразу.
  • Тому у код інструменту Codex просто дописали інструкцію «не призивай гоблінів». Якщо дуже хочеться, то розробник може відключити це обмеження спеціальною командою і отримати повну гоблінську свободу.
  • Разом із гоблінами під роздачу потрапили єноти, тролі та огри. Жаби виявилися невинні, бо аудит показав, що їх вживали цілком доречно, без патологічного тику.
  • OpenAI каже, що ця дивна історія принесла і практичну користь: компанія розробила нові інструменти для відстеження подібних збоїв у поведінці моделей. Тепер вони можуть швидше знаходити лексичні тики й прив'язувати їх до конкретного сигналу навчання, який їх породив. 
  • Детальніше про підходи OpenAI до розробки моделей ми писали в матеріалі про стратегію компанії та GPT-5.

Вся ця гоблінська сага добре ілюструє одну важливу річ: ШІ навчається рівно так, як ми його вчимо. Якщо десь у системі оцінок закрався баг, то модель його підхопить, підсилить і розповсюдить. А виловити проблему після цього буває набагато складніше, ніж здається.

Утім, гобліни далеко не єдина слабка точка сучасних моделей. Окреме дослідження показало, що ChatGPT помиляється у 67% випадків при пошуку новин, і теж без жодного попередження для користувача. А вчені з'ясували, що навіть розробникам наразі важко зрозуміти, чому саме модель приймає те чи інше рішення, нейромережа досі лишається чимось на зразок чорного ящика. 

Гоблінська справа хоч і виглядає кумедно, насправді ставить серйозне питання: скільки ще таких тихих багів ховається в моделях, про які ніхто поки не здогадується?

0
Icon 0

Підписуйтеся на наші соцмережі