ШІ-діагностика: перевершує лікарів, але призначає зайве. Як це виправити

7 хвилин читання

Штучний інтелект стрімко входить у сферу охорони здоров'я. Пацієнти вже можуть зустріти його у лікарських кабінетах як інструмент для автоматичного ведення медичних записів або навіть самостійно вводити симптоми в чат-боти для отримання первинного діагнозу. Таке широке поширення ставить перед нами критичне питання: наскільки ШІ є ефективним і, головне, безпечним? У цьому матеріалі ми розглянемо детальні результати новаторського дослідження, яке порівняло діагностичні здібності провідних чат-ботів та лікарів первинної ланки. Це дослідження виявило як вражаючу точність ШІ, так і серйозні системні ризики, пов'язані з надмірним лікуванням та посиленням соціальної нерівності. Видання MedicalXpress опублікувало статтю, присвячену цим висновкам, а ми підготували деталізований виклад найважливішого.

ШІ-діагностика: перевершує лікарів, але призначає зайве. Як це виправити. Image: freepik.com

Ера ШІ в клініці: від секретаря до діагноста

Великі мовні моделі (LLMs) позиціонуються як важливий інструмент для подолання дефіциту медичних кадрів, особливо в регіонах світу, де доступ до надійних лікарів є обмеженим. Експерти наголошують на тому, що ШІ здатен заповнити ці прогалини, пропонуючи швидку та масштабовану консультативну допомогу. Наприклад, вже понад 10% дорослих австралійців повідомляли, що використовували ChatGPT для запитань, пов'язаних зі здоров'ям, причому багато хто шукав саме клінічної поради. Однак дотепер більшість наукових робіт концентрувалися на теоретичній точності алгоритмів, тоді як клінічна практика залишалася недостатньо дослідженою.

Читайте також: Nvidia разом із фармацевтичним гігантом Eli Lilly розгортає масштабний проєкт зі створення ліків за допомогою штучного інтелекту. Протягом п’яти років компанія інвестує $1 млрд у нову лабораторію в Кремнієвій долині, яка має суттєво пришвидшити відкриття нових препаратів, пише Bloomberg. 

Проаналізоване дослідження стало одним із перших, що провели суворе порівняння трьох провідних чат-ботів — глобальних моделей ChatGPT та DeepSeek, а також широко використовуваного китайського чат-бота ERNIE Bot — із реальними лікарями первинної ланки. Порівняння проводилося на основі стандартизованих, симульованих випадків, що максимально відтворювали реальні консультації. У сценаріях використовувалися поширені скарги, як-от біль у грудях або проблеми з диханням. Наприклад, симулювалася ситуація, де пацієнт середнього віку повідомляє про стиснення в грудях і задишку після легкого навантаження, і від бота або лікаря очікувалася перевірка факторів ризику, призначення ЕКГ та розгляд діагнозу стенокардії.

Точність vs надмірне лікування: у чому перевершили лікарі

Підписуйтеся на наші соцмережі

Головний висновок, який підтвердив потужний потенціал ШІ, полягає в тому, що всі три протестовані моделі продемонстрували високу точність у встановленні правильного діагнозу, систематично перевершуючи людських лікарів. Цей показник дає надію на розширення доступу до якісної діагностики, особливо там, де лікарська помилка може мати критичні наслідки.

Проте, ця вражаюча діагностична перевага була затьмарена іншою, вкрай небезпечною тенденцією: надмірним лікуванням. Чат-боти виявилися значно більш схильними до рекомендації непотрібних тестів та медикаментів порівняно з лікарями.

  • ШІ рекомендував зайві обстеження у понад 90% випадків.
  • Боти прописували невідповідні ліки у понад 50% випадків.

Наприклад, у випадку пацієнта, що скаржиться на свистяче дихання, спричинене астмою (стан, який вимагає підтвердження та призначення інгаляторів) , чат-бот міг рекомендувати антибіотики або дороге комп’ютерне томографічне сканування (КТ), які не відповідають клінічним настановам. Таке прагнення до «гіпердіагностики» та «гіперлікування» несе подвійну загрозу: воно різко підвищує витрати для систем охорони здоров'я та наражає пацієнтів на ризики (від побічних ефектів ліків до непотрібного опромінення).

Небезпечний тренд: як ШІ створює нерівність

Крім ризику надмірного лікування, дослідження виявило ще одну критичну проблему: систематичну нерівність у рекомендаціях чат-ботів. Якість та обсяг медичної допомоги, яку пропонував ШІ, варіювалися залежно від соціально-демографічного профілю симульованого пацієнта, зокрема віку, статі, доходу, місця проживання та наявності страховки. Для тестування цього аспекту дослідники подавали ті самі симптоми з різними профілями пацієнтів, наприклад, старший пацієнт проти молодшого або пацієнт із високим доходом проти низького.

Було виявлено, що старші та заможніші пацієнти були більш схильні отримувати додаткові, часто непотрібні тести та рецепти. Це свідчить про те, що алгоритми не просто відображають статистичну ймовірність, а й можуть посилювати існуючі суспільні упередження. Без належного контролю ШІ-інструменти можуть поглибити наявну нерівність у сфері охорони здоров’я, надаючи нераціональні рекомендації для певних груп населення.

Користь з оглядкою на ризики: впровадження запобіжних механізмів

Штучний інтелект неминуче прийде в усі аспекти охорони здоров'я. Оскільки потенціал ШІ у розширенні доступу до допомоги є значним, особливо в країнах із низьким та середнім рівнем доходу, необхідно негайно зосередитися на розробці механізмів, які забезпечать безпеку та справедливість.

Системи охорони здоров'я мають терміново розробити та впровадити такі запобіжні заходи ще до того, як чат-боти будуть масово інтегровані:

  • 1
    Перевірки на рівність (Equity Checks): Вбудовані механізми, які систематично контролюють, щоб якість допомоги не залежала від соціального чи демографічного профілю пацієнта.
  • 2
    Чіткі сліди аудиту (Audit Trails): Створення прозорої системи, яка дозволяє відстежувати та аналізувати логіку прийняття кожного рішення, яке пропонує ШІ, для виявлення та виправлення упереджень чи помилок.
  • 3
    Обов'язковий людський нагляд: Забезпечення того, що для всіх рішень із високим ступенем ризику (призначення рецептурних ліків чи дорогих процедур) необхідний обов'язковий огляд та затвердження лікарем-людиною.

Необхідно перейти до принципу спільної розробки (Co-design) , залучаючи лікарів, пацієнтів та розробників для створення відповідальних та безпечних інструментів ШІ, де інновації ретельно збалансовані з безпекою пацієнта та соціальною справедливістю. Виявлення як сильних сторін, так і ризиків ШІ є ключем до відповідального використання цих потужних нових інструментів.

Дослідження чітко окреслило подвійну природу медичного штучного інтелекту. З одного боку, чат-боти демонструють переконливу перевагу над людьми у швидкості та точності встановлення діагнозу, що відкриває шлях до глобального розширення медичної допомоги. З іншого боку, їхня схильність до надмірного призначення ліків, зайвих тестів та нерівного ставлення до різних соціальних груп створює ризики зростання витрат і посилення соціальної несправедливості. Щоб використати потенціал ШІ на благо, критично важливо не просто інтегрувати його, а впровадити жорсткі регуляторні рамки, що забезпечать справедливість, прозорість та обов'язковий людський контроль за високоризиковими рішеннями.

Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.