Головна Штучний інтелект

Набір даних для навчання ШІ містить зображення сексуального насильства над дітьми — дослідження

20 грудня 2023 19:52 2 хвилин читання

Популярний набір даних для тренування штучного інтелекту LAION-5B містить посилання на зображення насильства над дітьми (CSAM). Про це свідчить аудит, проведений дослідниками Стенфордської інтернет-обсерваторії.

Згідно зі звітом, датасет містить щонайменше 1679 CSAM-матеріалів. Раніше їх вилучили з соцмереж та сайтів для дорослих, тому ці хеші відомі сервісам виявлення незаконного контенту, зокрема PhotoDNA та Канадським центром захисту дітей.

LAION-5B широко застосовують для навчання генераторів зображень на кшталт Stable Diffusion та Imagen від Google. На сайті LAION зазначено, що датасет не зберігає оригінальні фото. Він індексує інтернет і містить посилання на них та альтернативні підписи.

Підписуйтеся на наші соцмережі

Facebook Telegram Viber Youtube Instagram

На думку фахівців, існує ймовірність, що створені на основі LAION-5B моделі навчилися генерувати шкідливий контент.

Читайте також: Щомісяця в AI-індустрії відбувається стільки всього, що встежити за справді важливим стає складно. Тому я зібрав головне за місяць – тільки те, що реально варто знати.

Організація LAION зазначила, що тимчасово прибрала набори даних з відкритого доступу та дотримується політики «нульової толерантності» до подібних матеріалів.

Експерти також порадили «даунгрейднути» моделі ШІ, які навчались на проблемних даних, зокрема Stable Diffusion 1.5. Компанія Stability AI запевнила, що в процесі тренування своїх алгоритмів сконцентрувалась на безпечній частині LAION-5B.

Читати на speka.media

Меню

Набір даних для навчання ШІ містить зображення сексуального насильства над дітьми — дослідження

Підписуйтеся на наші соцмережі

Інші матеріали