OpenAI використала понад мільйон годин відео з YouTube для навчання GPT-4

2 хвилин читання

Компанія OpenAI використовувала модель транскрипції аудіо Whisper, щоб розшифрувати понад мільйон годин відео з YouTube для збору даних для навчання GPT-4

Про це повідомляє The New York Times.

За інформацією видання, OpenAI вичерпала запаси традиційних навчальних даних ще у 2021 році. Тоді компанія обговорювала можливість транскрибування відео з YouTube, подкастів та аудіокниг.

Попри юридичну сумнівність такого кроку, керівництво OpenAI, зокрема президент Ґреґ Брокман, особисто брали участь у зборі відео для цієї мети. Компанія виправдовувала свої дії концепцією «чесного використання» в рамках закону про авторські права.

Підписуйтеся на наші соцмережі

Читайте також: OpenAI планує суттєво знизити вартість токенів — одиниць, якими вимірюється і тарифікується використання ШІ-моделей. Компанія готується до цього кроку, побоюючись, що Anthropic зробить аналогічний хід першою. Якщо це станеться, ШІ для бізнесу може стати помітно доступнішим, пише Android Authority. 

Представниця OpenAI Ліндсі Хелд підтвердила, що компанія збирає «унікальні» набори даних для кожної моделі, використовуючи як публічні, так і партнерські непублічні джерела. Також розробники розглядають можливість створення власних синтетичних даних.

OpenAI порушила правила YouTube?

З боку Google така діяльність розцінюється як порушення. Раніше компанія попереджала, що її правила Умов використання забороняють несанкціоноване завантаження контенту з YouTube для навчання ШІ.

Разом з тим, за даними The Times, Google також збирала стенограми з власної відеоплатформи для тренування штучного інтелекту. Однак, за їхніми словами, це відбувалося в рамках угод з авторами контенту.

Інші технологічні гіганти, як-от Meta, також розглядали можливість непублічного використання авторських творів для навчання своїх моделей ШІ через обмежену доступність якісних відкритих даних.

Раніше SPEKA писала, що OpenAI оновила GPT-4 Turbo актуальними даними 2023 року.