Вікіпедія відкриває дані для розробників ШІ: боти більше не загрожуватимуть серверам
2 хвилин читання
Фонд «Вікімедіа» запустив новий структурований набір даних Вікіпедії, щоб допомогти розробникам штучного інтелекту отримувати потрібну інформацію без необхідності масово аналізувати текст зі сторінок. Набір вже доступний на платформі Kaggle, що належить Google, пише The Verge.
Що входить у набір даних для розробників ШІ від Вікіпедії
Підписуйтеся на наші соцмережі
Бета-версія має англомовні й франкомовні статті й містить:
Читайте також:
Онлайн-енциклопедія Вікіпедія посилила правила щодо використання штучного інтелекту. Відтепер редакторам заборонено створювати або переписувати статті за допомогою великих мовних моделей (LLM), повідомляє 404Media.
- короткі описи.
- зведення досліджень.
- дані з інфобоксів.
- посилання на зображення.
- структуровані розділи статей.
- водночас у наборі немає гіперпосилань, аудіофайлів та інших другорядних елементів.
Новий набір даних Вікіпедії сформовано у форматі JSON, що значно спрощує його використання в задачах машинного навчання ШІ: від побудови моделей до тестування і налаштування. Це також дозволяє зменшити навантаження на сервери Вікіпедії, які потерпають від автоматизованого збору даних.
Бренда Флінн, керівниця партнерських проєктів Kaggle