OpenAI заборонила своєму ШІ кликати гоблінів: як вони взагалі потрапили в чатбота

4 хвилин читання

З виходом GPT-5.1 ChatGPT почав дивно часто згадувати гоблінів, гремлінів, єнотів і огрів. Спочатку здавалося, що це мила примха. Потім нечисть полізла звідусіль, і OpenAI почала розслідування. Те, що вони знайшли, здивувало навіть їх самих. 

Як у ChatGPT зʼявилися гобліни і що з ними зробили. Фото: OpenAI 

Звідки у ChatGPT зʼявилися гобліни 

  • У ChatGPT є кілька режимів спілкування з різним характером. Один із них називався Nerdy, це такий собі грайливий ботанік, якому в інструкції написали: «дивись на світ як на дивне й цікаве місце, грайся з мовою». Саме цей персонаж і став джерелом проблеми.
  • Під час навчання система оцінювала відповіді ШІ-моделі й виставляла їм оцінки. Якась відповідь отримувала вищий бал, якась — нижчий. І з якоїсь причини відповіді з гоблінами та гремлінами стабільно отримували вищі оцінки. 
  • Модель це помітила і зробила логічний висновок: хочеш бути корисним, тоді додавай гобліна.
  • Результат виявився приголомшливим. Nerdy обробляв лише 2,5% усіх розмов у ChatGPT. Але саме звідти виходило 66,7% усіх згадок гоблінів у продукті. Один персонаж із двох з половиною відсотками трафіку заразив усю модель.
Читайте також: OpenAI планує суттєво знизити вартість токенів — одиниць, якими вимірюється і тарифікується використання ШІ-моделей. Компанія готується до цього кроку, побоюючись, що Anthropic зробить аналогічний хід першою. Якщо це станеться, ШІ для бізнесу може стати помітно доступнішим, пише Android Authority. 

Підписуйтеся на наші соцмережі

Чому видалити гоблінів з ChatGPT виявилося складно

Далі спрацював механізм, який добре знайомий усім, хто стикався з навчанням штучного інтелекту. Модель отримувала хороші оцінки за гоблінів, ці відповіді потрапляли в навчальні приклади для наступної версії, наступна версія вже сама по собі тягнулася до подібних слів, навіть без Nerdy. 

Так це вийшло за межі одного персонажа й розповсюдилося на всі режими роботи моделі. Раніше ми писали про те, як нечтача якісних даних для навчання тисне на весь ринок ШІ. Гоблінська справа показує протилежну проблему: дані є, але сигнал навчання веде не туди.

Перші тривожні дзвіночки з'явилися ще в листопаді: вживання слова «гоблін» зросло на 175% після виходу GPT-5.1, «гремліна» на 52%. Тоді це не виглядало критично. Але з кожною новою версією модель ставала все більш одержимою нечистю, і після GPT-5.4 команда вже не могла це ігнорувати.

Чи заборонила OpenAI своєму ШІ кликати гоблінів

  • Nerdy відключили в березні. Проблемний сигнал навчання прибрали, дані почистили. Але GPT-5.5 на той момент уже пройшов навчання на заражених прикладах.
  • Коли співробітники OpenAI почали тестувати модель у Codex в їхньому інструменті для розробників, то гобліни вилізли одразу.
  • Тому у код інструменту Codex просто дописали інструкцію «не призивай гоблінів». Якщо дуже хочеться, то розробник може відключити це обмеження спеціальною командою і отримати повну гоблінську свободу.
  • Разом із гоблінами під роздачу потрапили єноти, тролі та огри. Жаби виявилися невинні, бо аудит показав, що їх вживали цілком доречно, без патологічного тику.
  • OpenAI каже, що ця дивна історія принесла і практичну користь: компанія розробила нові інструменти для відстеження подібних збоїв у поведінці моделей. Тепер вони можуть швидше знаходити лексичні тики й прив'язувати їх до конкретного сигналу навчання, який їх породив. 
  • Детальніше про підходи OpenAI до розробки моделей ми писали в матеріалі про стратегію компанії та GPT-5.

Вся ця гоблінська сага добре ілюструє одну важливу річ: ШІ навчається рівно так, як ми його вчимо. Якщо десь у системі оцінок закрався баг, то модель його підхопить, підсилить і розповсюдить. А виловити проблему після цього буває набагато складніше, ніж здається.

Утім, гобліни далеко не єдина слабка точка сучасних моделей. Окреме дослідження показало, що ChatGPT помиляється у 67% випадків при пошуку новин, і теж без жодного попередження для користувача. А вчені з'ясували, що навіть розробникам наразі важко зрозуміти, чому саме модель приймає те чи інше рішення, нейромережа досі лишається чимось на зразок чорного ящика. 

Гоблінська справа хоч і виглядає кумедно, насправді ставить серйозне питання: скільки ще таких тихих багів ховається в моделях, про які ніхто поки не здогадується?