Головна Оперативка

OpenAI заборонила своєму ШІ кликати гоблінів: як вони взагалі потрапили в чатбота

30 квітня 2026 14:34 4 хвилин читання

З виходом GPT-5.1 ChatGPT почав дивно часто згадувати гоблінів, гремлінів, єнотів і огрів. Спочатку здавалося, що це мила примха. Потім нечисть полізла звідусіль, і OpenAI почала розслідування. Те, що вони знайшли, здивувало навіть їх самих.

OpenAI заборонила своєму ШІ кликати гоблінів: як вони взагалі потрапили в чатбота зображення 1

Як у ChatGPT зʼявилися гобліни і що з ними зробили. Фото: OpenAI

Звідки у ChatGPT зʼявилися гобліни

У ChatGPT є кілька режимів спілкування з різним характером. Один із них називався Nerdy, це такий собі грайливий ботанік, якому в інструкції написали: «дивись на світ як на дивне й цікаве місце, грайся з мовою». Саме цей персонаж і став джерелом проблеми.
Під час навчання система оцінювала відповіді ШІ-моделі й виставляла їм оцінки. Якась відповідь отримувала вищий бал, якась — нижчий. І з якоїсь причини відповіді з гоблінами та гремлінами стабільно отримували вищі оцінки.
Модель це помітила і зробила логічний висновок: хочеш бути корисним, тоді додавай гобліна.
Результат виявився приголомшливим. Nerdy обробляв лише 2,5% усіх розмов у ChatGPT. Але саме звідти виходило 66,7% усіх згадок гоблінів у продукті. Один персонаж із двох з половиною відсотками трафіку заразив усю модель.

Читайте також: Користуватися ШІ стане дешевше: чому OpenAI зібралася знижувати ціни на ChatGPT

Підписуйтеся на наші соцмережі

Чому видалити гоблінів з ChatGPT виявилося складно

Далі спрацював механізм, який добре знайомий усім, хто стикався з навчанням штучного інтелекту. Модель отримувала хороші оцінки за гоблінів, ці відповіді потрапляли в навчальні приклади для наступної версії, наступна версія вже сама по собі тягнулася до подібних слів, навіть без Nerdy.

Так це вийшло за межі одного персонажа й розповсюдилося на всі режими роботи моделі. Раніше ми писали про те, як нечтача якісних даних для навчання тисне на весь ринок ШІ. Гоблінська справа показує протилежну проблему: дані є, але сигнал навчання веде не туди.

Перші тривожні дзвіночки з'явилися ще в листопаді: вживання слова «гоблін» зросло на 175% після виходу GPT-5.1, «гремліна» на 52%. Тоді це не виглядало критично. Але з кожною новою версією модель ставала все більш одержимою нечистю, і після GPT-5.4 команда вже не могла це ігнорувати.

Чи заборонила OpenAI своєму ШІ кликати гоблінів

Nerdy відключили в березні. Проблемний сигнал навчання прибрали, дані почистили. Але GPT-5.5 на той момент уже пройшов навчання на заражених прикладах.
Коли співробітники OpenAI почали тестувати модель у Codex в їхньому інструменті для розробників, то гобліни вилізли одразу.
Тому у код інструменту Codex просто дописали інструкцію «не призивай гоблінів». Якщо дуже хочеться, то розробник може відключити це обмеження спеціальною командою і отримати повну гоблінську свободу.
Разом із гоблінами під роздачу потрапили єноти, тролі та огри. Жаби виявилися невинні, бо аудит показав, що їх вживали цілком доречно, без патологічного тику.
OpenAI каже, що ця дивна історія принесла і практичну користь: компанія розробила нові інструменти для відстеження подібних збоїв у поведінці моделей. Тепер вони можуть швидше знаходити лексичні тики й прив'язувати їх до конкретного сигналу навчання, який їх породив.
Детальніше про підходи OpenAI до розробки моделей ми писали в матеріалі про стратегію компанії та GPT-5.

Вся ця гоблінська сага добре ілюструє одну важливу річ: ШІ навчається рівно так, як ми його вчимо. Якщо десь у системі оцінок закрався баг, то модель його підхопить, підсилить і розповсюдить. А виловити проблему після цього буває набагато складніше, ніж здається.

Утім, гобліни далеко не єдина слабка точка сучасних моделей. Окреме дослідження показало, що ChatGPT помиляється у 67% випадків при пошуку новин, і теж без жодного попередження для користувача. А вчені з'ясували, що навіть розробникам наразі важко зрозуміти, чому саме модель приймає те чи інше рішення, нейромережа досі лишається чимось на зразок чорного ящика.

Гоблінська справа хоч і виглядає кумедно, насправді ставить серйозне питання: скільки ще таких тихих багів ховається в моделях, про які ніхто поки не здогадується?