Головна Штучний інтелект

OpenAI використала понад мільйон годин відео з YouTube для навчання GPT-4

7 квітня 2024 15:57 2 хвилин читання

Компанія OpenAI використовувала модель транскрипції аудіо Whisper, щоб розшифрувати понад мільйон годин відео з YouTube для збору даних для навчання GPT-4.

Про це повідомляє The New York Times.

За інформацією видання, OpenAI вичерпала запаси традиційних навчальних даних ще у 2021 році. Тоді компанія обговорювала можливість транскрибування відео з YouTube, подкастів та аудіокниг.

Попри юридичну сумнівність такого кроку, керівництво OpenAI, зокрема президент Ґреґ Брокман, особисто брали участь у зборі відео для цієї мети. Компанія виправдовувала свої дії концепцією «чесного використання» в рамках закону про авторські права.

Підписуйтеся на наші соцмережі

Facebook Telegram Viber Youtube Instagram

Читайте також: Штучний інтелект може перевершити сукупний інтелект людства приблизно за п’ять років, а через десять років люди, ймовірно, вже не контролюватимуть найрозумніші системи. Такий прогноз Ілон Маск озвучив у розмові з головною редакторкою The Economist Занні Мінтон Беддоуз на YouTube-каналі видання. Попри ризики, найімовірнішим результатом він називає «добу дивовижного достатку».

Представниця OpenAI Ліндсі Хелд підтвердила, що компанія збирає «унікальні» набори даних для кожної моделі, використовуючи як публічні, так і партнерські непублічні джерела. Також розробники розглядають можливість створення власних синтетичних даних.

OpenAI порушила правила YouTube?

З боку Google така діяльність розцінюється як порушення. Раніше компанія попереджала, що її правила Умов використання забороняють несанкціоноване завантаження контенту з YouTube для навчання ШІ.

Разом з тим, за даними The Times, Google також збирала стенограми з власної відеоплатформи для тренування штучного інтелекту. Однак, за їхніми словами, це відбувалося в рамках угод з авторами контенту.

Інші технологічні гіганти, як-от Meta, також розглядали можливість непублічного використання авторських творів для навчання своїх моделей ШІ через обмежену доступність якісних відкритих даних.

Раніше SPEKA писала, що OpenAI оновила GPT-4 Turbo актуальними даними 2023 року.

Читати на speka.media

Меню

OpenAI використала понад мільйон годин відео з YouTube для навчання GPT-4

Підписуйтеся на наші соцмережі

OpenAI порушила правила YouTube?

Інші матеріали