Мислення Data Scientist: навички, етика та місце в еру ШІ
Професія Data Scientist вже понад десять років утримує звання однієї з найпривабливіших у світі технологій, адже, за визначенням Harvard Business Review, вона є «найсексуальнішою роботою XXI століття». У відео, опублікованому на YouTube-каналі DOU, фахівчиня з машинного навчання та засновниця академії Data Loves You Ганна Пилєва, розповіла про суть роботи, ключові відмінності від інших ролей, необхідні навички та головні виклики. Ми підготували детальний виклад найважливішого з цієї розмови.
Суть роботи: перетворення даних на рішення
Головне завдання Data Scientist, якщо сформулювати його максимально лаконічно, — це перетворення даних на рішення. У своїй роботі DS не просто обробляє інформацію, а виступає дослідником: шукає закономірності в масивах даних, будує гіпотези та перевіряє їх за допомогою статистики. Після отримання певних висновків, фахівець має пояснити їх бізнесу, щоб той міг впровадити конкретні дії. Кожен проєкт у Data Science часто пропонує щось прикольне та нове, а не типові задачі, які трапляються в аналітиці.
Де проходить межа між Data Scientist, Аналітиком та ML-інженером
У компаніях Data Scientist, Data Analyst та Machine Learning Engineer часто працюють в одній команді, але мають чітко розділені функції.
-
1
Data Analyst (DA): Ця людина займається аналізом даних, що орієнтований на історію. Аналітик вивчає вже спостережені тенденції та минулу поведінку. У DA часто трапляються типові задачі.
-
2
Machine Learning Engineer (MLE): Це фахівець, який відповідає за впровадження рішень з машинного навчання. MLE зазвичай є Python-розробником з додатковими знаннями статистики та математики. Він завжди деплоїть моделі, займається їхньою оптимізацією та загалом виконує технічно складніші завдання.
-
3
Data Scientist (DS): Ця роль знаходиться десь посередині, і її функціонал може сильно змінюватися залежно від потреб компанії. DS може бути як дуже технічним фахівцем (фактично виконуючи роль MLE) , так і людиною, що більше сфокусована на аналітиці та комунікації з бізнесом (особливо в західних компаніях). Ключова відмінність – DS будує предиктивні моделі (наприклад, прогнозує прибуток на наступний місяць) і може залучатися до створення складних рекомендаційних систем.
Необхідні інструменти та високий поріг входу
Програмування є коронавичкою для Data Scientist , так само як і знання статистики. Якщо для Data Analyst програмування на Python є лише великим плюсом , то для DS це основний інструмент. Хоча теоретично моделі можна будувати в Excel, на практиці це має суттєві обмеження. Python дозволяє працювати значно гнучкіше.
Підписуйтеся на наші соцмережі
Data Science вважається професією з високим порогом входу. Для освоєння цього напрямку потрібно інвестувати щонайменше рік активного навчання, тоді як аналітику даних з нуля можна опанувати за три-шість місяців.
Програма навчання має включати кілька ключових блоків, кожен з яких вимагає часу:
- Програмування: Навчитися нормально програмувати з нуля вимагає не менше двох місяців.
- Аналіз даних та мислення: Недостатньо просто освоїти інструменти, необхідно побудувати аналітичне мислення та логіку, що займає тривалий час.
- Математика та Статистика: Статистика часто є неінтуїтивною, що ускладнює її пізнання і також вимагає часу.
- Машинне навчання (ML): Освоєння базових моделей (регресії, класифікації, кластеризації) займає близько трьох місяців. Далі відкривається необмежений простір для вивчення глибокого навчання, мовних моделей, рекомендаційних мереж та інших складних систем.
Чому збір якісних даних складніший за побудову моделі
За досвідом фахівців, найскладнішим етапом у циклі Data Science є збір якісних даних. Основна цінність для задач машинного навчання закладається саме у процесі збору.
Процес ускладнюється викликами, пов'язаними з розумінням того, які дані потрібні для вирішення бізнес-задачі. Іноді виникає потреба побудувати цілу систему відстеження, наприклад, для фіксації поведінки користувачів на сайті. В інших випадках, коли всі дані вже зібрані в базі, завданням стає зрозуміти, що саме з цієї бази необхідно взяти для моделювання. Складнощі часто виникають на етапі трансформації даних, а також перевірки їхньої коректності та правильності висновків, отриманих на їх основі.
Натомість, сама побудова моделі — це вже більш захоплюючий етап експериментів, пошуку та відповіді.
Етика та відповідальність: боротьба з упередженістю
Data Scientist має усвідомлювати свою відповідальність, оскільки він може створити упереджену модель як випадково, так і свідомо. Боротьба за неупередженість є важливим питанням у серйозних компаніях, що займаються Data Science.
Практичні кроки для забезпечення неупередженості:
- Аналіз даних та моделі: Необхідно ретельно дивитися на дані та постійно аналізувати роботу моделі.
- Використання XAI: В Data Science існує окремий напрямок Explainable AI (XAI), де фахівець має зрозуміти, чому модель передбачає певне значення.
- Спеціальні методи: Існують спеціальні методи для боротьби з упередженістю. Це необхідно, щоб уникнути ситуацій, коли модель приймає дискримінаційні рішення, наприклад, видає кредити жінкам під більші відсотки через застарілі та упереджені дані.
Чим менше упередженості в моделі, тим більш передбачувано вона поводиться за різних умов, забезпечуючи високу генералізацію.
Ще один критичний аспект — приватність. Межа між Data Science та втручанням у приватність проходить там, де немає дозволу користувача на використання його даних. Якщо дані використовуються відповідно до підтвердження користувача і модель не створює додаткових маніпуляцій, це етично. Загалом, більшість моделей машинного навчання працюють з усередненими значеннями та загальними патернами, намагаючись передбачити поведінку «середнього користувача».
Кейс-урок: не всі задачі вирішуються
Важливо розуміти, що не всі амбітні задачі можна вирішити за допомогою Machine Learning. Наприклад, у сфері Greentech (онлайн-беттінг), фахівці пів року працювали над проєктом прогнозування LTV (Lifetime Value) кожного окремого користувача. Метою було розуміння, чи окупиться користувач на ранньому етапі, та можливість його кращої сегментації. Згодом, експерт з великим досвідом у цій сфері підтвердив, що задача прогнозування LTV не вирішується саме в беттінгу через надто велику стохастичність подій. Такі задачі класно вирішуються лише у сервісах за підпискою (SaaS). Попри «фейл» із кінцевим результатом, пошук та документування висновків (research) все одно принесли користь.
Data Scientist та Штучний Інтелект: дружба, а не конкуренція
Наразі між Data Science та Штучним Інтелектом (AI) немає конкуренції. Data Science вважається доволі AI-safe професією.
Хоча AI може допомогти прискорити роботу (наприклад, написати код для типової обробки даних, регулярних виразів), він не може повністю замінити фахівця. AI поки що не вміє надто ефективно та класно думати, помиляючись навіть у простих арифметичних операціях.
Роль Data Scientist вимагає постійного нестандартного мислення і є комплексною, включаючи:
- Розуміння задачі та спілкування з різними представниками процесу.
- Оцифрування бізнес-задачі, тобто її трансформацію в Machine Learning задачу.
- Комунікацію та донесення корисності рішення.
На етапі створення продакшн-рішень та нестандартних ходів AI стагнує. Тому, поки що Data Scientists успішно використовують AI як інструмент.
Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.