OpenAI заборонила своєму ШІ кликати гоблінів: як вони взагалі потрапили в чатбота
З виходом GPT-5.1 ChatGPT почав дивно часто згадувати гоблінів, гремлінів, єнотів і огрів. Спочатку здавалося, що це мила примха. Потім нечисть полізла звідусіль, і OpenAI почала розслідування. Те, що вони знайшли, здивувало навіть їх самих.
Звідки у ChatGPT зʼявилися гобліни
- У ChatGPT є кілька режимів спілкування з різним характером. Один із них називався Nerdy, це такий собі грайливий ботанік, якому в інструкції написали: «дивись на світ як на дивне й цікаве місце, грайся з мовою». Саме цей персонаж і став джерелом проблеми.
- Під час навчання система оцінювала відповіді ШІ-моделі й виставляла їм оцінки. Якась відповідь отримувала вищий бал, якась — нижчий. І з якоїсь причини відповіді з гоблінами та гремлінами стабільно отримували вищі оцінки.
- Модель це помітила і зробила логічний висновок: хочеш бути корисним, тоді додавай гобліна.
- Результат виявився приголомшливим. Nerdy обробляв лише 2,5% усіх розмов у ChatGPT. Але саме звідти виходило 66,7% усіх згадок гоблінів у продукті. Один персонаж із двох з половиною відсотками трафіку заразив усю модель.
Підписуйтеся на наші соцмережі
Чому видалити гоблінів з ChatGPT виявилося складно
Далі спрацював механізм, який добре знайомий усім, хто стикався з навчанням штучного інтелекту. Модель отримувала хороші оцінки за гоблінів, ці відповіді потрапляли в навчальні приклади для наступної версії, наступна версія вже сама по собі тягнулася до подібних слів, навіть без Nerdy.
Так це вийшло за межі одного персонажа й розповсюдилося на всі режими роботи моделі. Раніше ми писали про те, як нечтача якісних даних для навчання тисне на весь ринок ШІ. Гоблінська справа показує протилежну проблему: дані є, але сигнал навчання веде не туди.
Перші тривожні дзвіночки з'явилися ще в листопаді: вживання слова «гоблін» зросло на 175% після виходу GPT-5.1, «гремліна» на 52%. Тоді це не виглядало критично. Але з кожною новою версією модель ставала все більш одержимою нечистю, і після GPT-5.4 команда вже не могла це ігнорувати.
Чи заборонила OpenAI своєму ШІ кликати гоблінів
- Nerdy відключили в березні. Проблемний сигнал навчання прибрали, дані почистили. Але GPT-5.5 на той момент уже пройшов навчання на заражених прикладах.
- Коли співробітники OpenAI почали тестувати модель у Codex в їхньому інструменті для розробників, то гобліни вилізли одразу.
- Тому у код інструменту Codex просто дописали інструкцію «не призивай гоблінів». Якщо дуже хочеться, то розробник може відключити це обмеження спеціальною командою і отримати повну гоблінську свободу.
- Разом із гоблінами під роздачу потрапили єноти, тролі та огри. Жаби виявилися невинні, бо аудит показав, що їх вживали цілком доречно, без патологічного тику.
- OpenAI каже, що ця дивна історія принесла і практичну користь: компанія розробила нові інструменти для відстеження подібних збоїв у поведінці моделей. Тепер вони можуть швидше знаходити лексичні тики й прив'язувати їх до конкретного сигналу навчання, який їх породив.
- Детальніше про підходи OpenAI до розробки моделей ми писали в матеріалі про стратегію компанії та GPT-5.
Вся ця гоблінська сага добре ілюструє одну важливу річ: ШІ навчається рівно так, як ми його вчимо. Якщо десь у системі оцінок закрався баг, то модель його підхопить, підсилить і розповсюдить. А виловити проблему після цього буває набагато складніше, ніж здається.
Утім, гобліни далеко не єдина слабка точка сучасних моделей. Окреме дослідження показало, що ChatGPT помиляється у 67% випадків при пошуку новин, і теж без жодного попередження для користувача. А вчені з'ясували, що навіть розробникам наразі важко зрозуміти, чому саме модель приймає те чи інше рішення, нейромережа досі лишається чимось на зразок чорного ящика.
Гоблінська справа хоч і виглядає кумедно, насправді ставить серйозне питання: скільки ще таких тихих багів ховається в моделях, про які ніхто поки не здогадується?