Що вміє Data Scientist і чому це більше, ніж просто аналітика
У новому випуску «НЕ В ТЕМУ» на каналі SPEKA media Богдан Редчук, Senior Data Scientist компанії Modus X, розповів про те, як працює сучасна аналітика даних, у чому суть його професії, як використовуються математичні моделі у медицині, логістиці, спорті та військових технологіях. А ми підготували для вас розгорнутий виклад цього епізоду — з максимумом деталей, прикладів та практичного сенсу.
Чим Data Scientist відрізняється від саєнтолога?
Це питання може звучати жартівливо, але за ним ховається серйозне непорозуміння. Data Scientist — це фахівець, який працює з даними, застосовує методи аналізу, статистики, машинного навчання для того, щоб знайти закономірності, побудувати прогнози або оптимізувати системи. Саєнтологія ж — релігійно-психологічне вчення. Спільне лише одне — англійське слово science. Проте у разі з Data Scientist це прикладна наука, що лежить на перетині ІТ, математики та реального світу.
Як Big Data стала Data Science
Перш ніж з'явився термін Data Science, світ заговорив про Big Data. У 90-х роках — з появою масових цифрових сервісів — обсяги даних почали зростати експоненційно. З’явились потужні бази даних, сховища, але не було ефективних способів їх осмислення. Перші спроби — це звичайна аналітика: агрегації, мода, медіана, частоти. Але лише з розвитком обчислювальних ресурсів і алгоритмів машинного навчання стало можливим обробляти дані в новий спосіб — навчати моделі, будувати прогнози, оптимізувати системи. Саме це й дало поштовх появі Data Science як окремої сфери.
Перший Data Scientist — Гарі Селдон чи Ньютон, і до чого тут Бернуллі?
Історію Data Science важко відокремити від історії науки загалом. З одного боку, наукову інтуїцію та міждисциплінарний підхід найкраще втілює образ вигаданого Гарі Селдона з «Фундації» Азімова. Його «психоісторія» — це спроба спрогнозувати майбутнє на базі великих даних і законів статистики. Це ближче до філософії сучасної аналітики, ніж здається.
З іншого боку, є реальні персонажі: Ньютон, Бернуллі, Лейбніц. Їхня боротьба із завданнями оптимізації — прямий прообраз логіки машинного навчання. Класичний приклад: задача про жолоб, по якому кулька має пройти найшвидше. Суть — знайти оптимальну траєкторію руху. Сьогодні це серце будь-якого ML-алгоритму: пошук найкращих параметрів у заданих умовах. Ньютон розв’язав її за ніч. Бернуллі — витончено, але пізніше. Суть не у змаганні, а у самій логіці мислення — це і є фундамент Data Science.
Дефіцитна професія: скільки заробляє Data Scientist
Сьогодні попит на Data Scientist стрімко зростає. Причини — цифровізація, накопичення даних і необхідність ухвалювати обґрунтовані рішення. За словами фахівця, середня зарплата сеньйора — від 4 до 10 тис. дол. У вузьких галузях (наприклад, Computer Vision) — ще більше. Але це не професія «з вулиці». Щоб увійти в неї, треба мати або технічну, або наукову базу і бути готовим до безперервного навчання.
Що треба знати: лінійна алгебра, статистика, ймовірність
Підписуйтеся на наші соцмережі
Щоб стати дата саєнтистом, недостатньо вивчити Python або пройти онлайн-курс. Потрібна фундаментальна математична база: лінійна алгебра, теорія ймовірностей, статистика, основи аналізу та навіть елементи комбінаторики. Програмування — це лише інструмент. Успішний Data Scientist повинен уміти інтерпретувати моделі, розуміти глибину процесів і пояснювати їх. У професії існує два шляхи: або з боку програмування, або з боку науки.
Прикладна фізика та фізика живих систем. Про що це?
Прикладна фізика, точніше фізика живих систем. Це не біологія, а спроба застосувати фізичні закони до процесів, які відбуваються в організмах. Йдеться про електричні сигнали у нервах, роботу синапсів, взаємодію молекул. Цей напрям формує унікальне мислення, де наука перестає бути теоретичною і стає прикладом того, як одна формула може пояснити закономірності у біології, фізиці чи економіці.
Чому ми хворіємо: відповідає Data Scientist
Перший практичний кейс — дослідження генетичних даних людей із серцево-судинними хворобами.
Мета — виявити, які саме мутації ДНК підвищують ризик. Класична статистика з цим не справлялась: занадто багато змінних.
Зате алгоритми машинного навчання дозволили побачити зв’язки між поєднанням мутацій і захворюванням. Це і є приклад того, як аналітика даних рятує життя.
Коли бізнес розуміє, що йому потрібен Data Scientist
Переважно усвідомлення потреби у Data Scientist приходить тоді, коли стандартні методи оптимізації більше не працюють, а прибуток падає. Іноді — через хайп навколо AI. Але в суті — потреба знайти нові закономірності, які важко помітити неозброєним оком. Фактично Data Scientist — це дослідник, який шукає нову «формулу ефективності» для компанії. Наприклад, модель, яка дозволяє точно оцінити вартість нерухомості або товару з урахуванням десятків параметрів.
Дайте країні вугілля! Але кому, скільки і як?
Конкретний приклад: оптимізація розподілу вугілля для компанії ДТЕК. Сотні маршрутів щодня, обмеження по залізницях, потужностях, кількості вагонів, графіках роботи станцій. Раніше це рахували вручну кілька тижнів, тепер — алгоритм за годину. Проблема — не просто знайти відповідь, а знайти реалістичну відповідь. Математично можна було б ще краще, але реальність диктує обмеження. Це типовий приклад задачі без точного рішення. У таких умовах Data Scientist формує систему, яка адаптується до змін (наприклад, якщо пошкоджено інфраструктуру через війну) і дає найбільш ефективний на той момент варіант.
Інтелектуальні ігри та бази даних
Цікаво, що ще до роботи з великими даними Богдан грав у спортивне «Що? Де? Коли?». І навіть тут знайшлось місце для аналітики. Наприклад, оцінювати ефективність гравців, шукати вдалі комбінації, прогнозувати шанси на перемогу — усе це можливо з допомогою історичних даних і моделей. Коли кількість змінних перевищує можливості інтуїції — допомагає статистика.
Чи можна робити ставки, маючи досвід у Data Science?
Якщо все так добре з аналітикою, чи можна вигравати у букмекерів? Історія Меттью Бенгема — доказ, що можна. Він фізик, який застосував аналітику до ставок на спорт, а згодом купив клуб «Брентфорд», побудував команду на даних і підняв її в англійську Прем’єр-лігу. Суть — пошук недооцінених гравців через нестандартні метрики. Купити дешево, виростити, продати дорого. Клуб виріс з вартості у 700 тисяч до понад 400 мільйонів фунтів. Тобто так, Data Science може працювати навіть у світі ставок і трансферів.
Хто сьогодні у запасі? Оптимізація тактики у футболі
Те саме можна застосовувати навіть до аматорського футзалу: історія комбінацій гравців, ефективність пар, витривалість — усе це можна прораховувати, підбираючи оптимальні склади. Навіть якщо це не дає миттєвої переваги, аналітика точно підказує слабкі місця.
Як прорахувати атаку «шахедів»
Data Science також працює на оборону. Українські дата саєнтисти працюють над розробками, які дозволяють дронам ідентифікувати міни, оцінювати руйнування, прогнозувати траєкторії ворожих атак. Це приклад того, як аналітика даних допомагає реагувати швидше, точніше і рятувати життя.
Підсумок: НЕ В ТЕМУ, а насправді в саме серце
Подкаст має назву «НЕ В ТЕМУ», але парадокс у тому, що весь цей шлях — від генетичних мутацій до логістики вугілля і лави запасних у футзалі — насправді про розуміння закономірностей там, де їх не видно. Про ухвалення рішень там, де інтуїція підводить. Про здатність побачити структуру в хаосі. Саме це робить Data Scientist. І саме тому його робота — хоч і часто поза загальним фокусом — б'є в саму точку.