Набір даних для навчання ШІ містить зображення сексуального насильства над дітьми — дослідження

2 хвилин читання

Популярний набір даних для тренування штучного інтелекту LAION-5B містить посилання на зображення насильства над дітьми (CSAM). Про це свідчить аудит, проведений дослідниками Стенфордської інтернет-обсерваторії.

Згідно зі звітом, датасет містить щонайменше 1679 CSAM-матеріалів. Раніше їх вилучили з соцмереж та сайтів для дорослих, тому ці хеші відомі сервісам виявлення незаконного контенту, зокрема PhotoDNA та Канадським центром захисту дітей.  

LAION-5B широко застосовують для навчання генераторів зображень на кшталт Stable Diffusion та Imagen від Google. На сайті LAION зазначено, що датасет не зберігає оригінальні фото. Він індексує інтернет і містить посилання на них та альтернативні підписи.

Підписуйтеся на наші соцмережі

На думку фахівців, існує ймовірність, що створені на основі LAION-5B моделі навчилися генерувати шкідливий контент. 

Читайте також: Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.

Організація LAION зазначила, що тимчасово прибрала набори даних з відкритого доступу та дотримується політики «нульової толерантності» до подібних матеріалів. 

Експерти також порадили «даунгрейднути» моделі ШІ, які навчались на проблемних даних, зокрема Stable Diffusion 1.5. Компанія Stability AI запевнила, що в процесі тренування своїх алгоритмів сконцентрувалась на безпечній частині LAION-5B.