OpenAI визнав, що його бот GPTbot сканує інтернет для навчання ШІ

2 хвилин читання

Компанія OpenAI визнала, що має спеціального бота-”павука” GPTbot, який сканує мережу та збирає дані для навчання свого штучного інтелекту, повідомляє Business Insider.

OpenAI може використовувати онлайн-контент, зібраний GPTbot, для навчання наступної великої моделі ШІ – GPT-5.

GPT-4, ChatGPT та інші потужні моделі відповідають на запитання миттєво, тому користувачі мають менше стимулів шукати першоджерела інформації. 

Так само у авторів зникають стимули ділитися високоякісною інформацією в Інтернеті безкоштовно: OpenAI збере цей контент для навчання майбутніх LLM.

Читайте також: Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.

Як захистити свій сайт від індексації GPTbot 

Підписуйтеся на наші соцмережі

Деякі автори, медіа та навіть онлайн-спільноти вже дійшли висновку, що, дозволивши боту GPTbot від OpenAI сканувати свій сайт, вони втрачають власний майбутній трафік. 

OpenAI нещодавно фактично визнала існування цього боту – оголосила про спосіб блокування GPTbot за допомогою загального протоколу під robots.txt. 

Для цього потрібно додати в файл robots.txt наступні строки:

  • User-agent: GPTBot
  • Disallow: /
OpenAI оголосила про спосіб блокування GPTbot за допомогою загального протоколу під robots.txt

Деякі сайти, наприклад Clarkesworld, журнал наукової фантастики та фентезі, вже скористались цим протоколом та заблокували GPTbot. Щоправда, це може бути запізно.

«Нарешті, після того, як увібрали весь ваш контент, захищений авторським правом, для створення свого власного продукту, OpenAI дає вам спосіб запобігти використанню вашого контенту для подальшого вдосконалення продукту»
Прасад Дхумал, консультант з оптимізації пошукових систем
Нам шкода, але цей блок не підтримується в AMP версії, перейдіть за посиланням,щоб побачити повну версію.

GPTbot – не єдиний індекс-бот для ШІ. Ще один цифровий павук CCBot  збирає весь вміст мережі. Його власник – організація Common Crawl, яка є основним постачальником навчальних даних для моделей ШІ. Common Crawl регулярно зберігає всю цю інформацію, тому блокувати її бота також вже пізно.