Штучний інтелект постійно помиляється — дослідження
3 хвилин читання
Columbia Journalism Review (CJR) спільно з Tow Center for Digital Journalism провели масштабне дослідження точності генеративних моделей штучного інтелекту, що використовуються для пошуку новин. Результати виявили серйозні проблеми: понад 60% відповідей цих інструментів містили помилки, пише Ars Technica.
Масштаби неточностей ШІ в пошуку інформації
Дослідники протестували вісім популярних ШІ-інструментів, що пропонують пошук у реальному часі. Рівень помилок серед них значно відрізнявся:
Підписуйтеся на наші соцмережі
Читайте також:
Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.
Як дослідники тестували ШІ на предмет помилок
- Експеримент проводився за чіткою методикою: штучному інтелекту подавали уривки з реальних новинних статей і просили визначити заголовок, джерело, дату публікації й URL-адресу. Загалом дослідники здійснили 1600 запитів у різних ШІ-інструментах.
- Замість того, щоб визнавати брак інформації, штучний інтелект часто вигадував відповіді, створюючи правдоподібні, але помилкові факти. Ця тенденція була характерною для всіх протестованих моделей.
- Дослідження також показало, що деякі ШI-інструменти ігнорують протокол виключення роботів, який обмежує доступ до певного контенту. Наприклад, Perplexity успішно визначив 10 уривків із платного контенту National Geographic, хоча доступ до них мав бути закритим.
- Окрім цього, ШІ-системи часто посилалися на синдиковані версії статей на платформах на кшталт Yahoo News, а не на оригінальні джерела. Це створює проблеми для видавців, які втрачають трафік на власні сайти.
- Інструменти Gemini й Grok 3 масово генерували неіснуючі URL-адреси. У випадку з Grok 3 з 200 перевірених посилань 154 виявилися помилковими або вели на неіснуючі сторінки.
Преміум-версії ШІ – не панацея від помилок
Цікаво, що платні версії пошукових ШІ-сервісів, такі як Perplexity Pro ($20/міс.) і Grok 3 Premium ($40/міс.), мали ще гірші показники. Хоча вони давали більше правильних відповідей, їх схильність вигадувати інформацію була значно вищою.
Марк Говард, головний операційний директор Time