Штучний інтелект виснажує ресурси вікіпедії: деталі
2 хвилин читання
Фонд «Вікімедіа» повідомив, що автоматизований збір даних штучним інтелектом зріс, що вплинуло на стабільність роботи вікіпедії й інших платформ фонду, пише Ars Technicа.
Від початку 2024 року компанії, що розробляють LLM-моделі, збільшили масштаб сканування через API та прямі завантаження, що призвело до зростання на 50% пропускної здатності для мультимедійного контенту.
Як штучний інтелект загрожує вікіпедії
- Фонд "Вікімедіа" хостить не лише вікіпедію, а й Wikimedia Commons, де зберігається 144 млн медіафайлів.
- Це робить платформи привабливими для компаній, які масово збирають дані для навчання ШІ.
- Проте такий трафік коштує дорого: боти генерують 65% найбільш ресурсомістких запитів, хоча становлять лише 35% переглядів сторінок.
- На відміну від людей, які відкривають популярні статті, ШІ-боти безсистемно «прочісують» навіть маловідомі сторінки, обминають кешування і навантажують сервери фонду.
Підписуйтеся на наші соцмережі
Читайте також:
Онлайн-енциклопедія Вікіпедія посилила правила щодо використання штучного інтелекту. Відтепер редакторам заборонено створювати або переписувати статті за допомогою великих мовних моделей (LLM), повідомляє 404Media.
Як ШІ-боти обходять захист
Окрім навантаження, деякі ШІ-сканери порушують правила чесного використання:
- ігнорують директиви robots.txt;
- маскуються під звичайних користувачів;
- використовують житлові IP-адреси для обходу блокувань.
Що робитиме вікіпедія з нашестям ШІ-ботів
Фонд «Вікімедіа» наголошує: їхній контент відкритий, але підтримка серверів потребує ресурсів. Тому організація ініціювала проєкт WE5: відповідальне використання інфраструктури, що має розробити стійкі механізми взаємодії між ШІ-компаніями і відкритими платформами. Вікіпедія може:
- обмежити швидкість запитів для ботів;
- створити окремі API для ШІ-компаній;
-
залучити фінансову підтримку інфраструктури з боку бізнесу.