OpenAI представила нейромережу, яка безкоштовно перетворює аудіо в текст

3 хвилин читання

Компанія OpenAI запустила нейромережу Whisper, призначену для транскрипції аудіо в письмовий текст. Whisper має відкритий код, може автоматично розпізнавати, транскрибувати та перекладати інші мови. І вона безкоштовна для користувачів

Розпізнавання мови залишається складною проблемою в галузі штучного інтелекту та машинного навчання. Як крок до розв'язання цієї проблеми OpenAI відкрила вихідний код Whisper, системи автоматичного розпізнавання мови, яка, за твердженням компанії, забезпечує «надійну» транскрипцію кількома мовами, а також переклад з цих мов англійською.

Безліч організацій розробили потужні системи розпізнавання мови, що лежать в основі програмного забезпечення та сервісів таких технологічних гігантів, як Google, Amazon та Meta. Але що відрізняє Whisper, згідно з OpenAI, так це те, що він був навчений на 680 000 годин багатомовних і багатозадачних даних, зібраних з Інтернету, що призвело до покращеного розпізнавання унікальних акцентів, фонового шуму та технічного жаргону.

Підписуйтеся на наші соцмережі

Як зазначають розробники, Whisper потенційно дуже корисний для автоматичного розпізнавання мови для розробників, особливо для розпізнавання англійської мови.

Читайте також: Скандал у геймдев: чеська студія Warhorse Studios, відома серією Kingdom Come, опинилася в центрі обговорення через заміну живих співробітників штучним інтелектом.

Втім, Whisper має свої обмеження, особливо в області передбачення тексту. Оскільки система була навчена на великій кількості «зашумлених» даних, OpenAI попереджає, що Whisper може включати у свої транскрипції слова, які насправді не були вимовлені – можливо тому, що він одночасно намагається передбачити наступне слово в аудіо і намагається розшифрувати сам звук . . Більш того, Whisper не однаково добре працює різними мовами, страждаючи від вищого рівня помилок, коли йдеться про носії мов, які недостатньо добре представлені в навчальних даних.

Попри це, OpenAI вважає, що можливості транскрипції Whisper використовуються для покращення наявних інструментів доступності.

Whisper не перший такий продукт, однак має одну велику перевагу. Сервіси Otter.ai чи Trint коштують дорого, за вбудовані функції транскрипції у Microsoft Word або Pixel теж потрібно платити. В той час як Whisper є безкоштовним.\

Раніше ми на прикладі  кейса DALL-E 2 розповідали, чи замінять нейромережі фотобанки та художників.