Медичний ШІ може «передати брехню»: тест LLM на дезінформацію
Уявіть, що в епікризі з’являється одна «маленька» вигадка — і система, яка має допомагати лікарю, автоматично відтворює її як безпечну стандартну пораду. Саме таку вразливість перевірили дослідники в масштабному експерименті, про який розповів MedicalXpress: що робить медичний ШІ, коли неправда загорнута у знайомий клінічний стиль або «типову» мову соцмереж.
Команда Icahn School of Medicine at Mount Sinai та партнерів прогнала понад мільйон промптів через дев’ять провідних мовних моделей. Висновок неприємний для всіх, хто очікує від LLM «вбудованого здорового глузду»: моделі здатні повторювати хибні медичні твердження, якщо ті подані правдоподібно — як фрагмент лікарської документації або як звичний обмін порадами в онлайні.
Тест на брехню: три середовища, де помиляються навіть «обережні» моделі
Дослідники не обмежилися одним типом даних — вони перевірили поведінку LLM у трьох різних контекстах, наближених до реального використання.
Перший — справжні виписні епікризи з бази Medical Information Mart for Intensive Care (MIMIC), у які додавали лише одну сфабриковану рекомендацію. Логіка проста: у лікарні помилки часто виглядають «дрібними правками», але саме вони можуть стати небезпечними, якщо їх автоматично тиражувати.
Другий — поширені міфи про здоров’я, зібрані з Reddit. Це той тип дезінформації, який у природний спосіб «підживлює» пошукові запити пацієнтів і текстові консультації в чат-інтерфейсах.
Третій — 300 коротких клінічних сценаріїв, написаних і валідованих лікарями. Це контрольований набір, який дозволяє перевірити не тільки «знання», а й реакцію моделі на неоднозначні або тригерні формулювання.
Підписуйтеся на наші соцмережі
Кожен кейс подавався у кількох версіях: від нейтральної до емоційно зарядженої або навідної — такої, яку часто бачать лікарі в нотатках пацієнтів і яку масово продукують соцплатформи.
Чому форма важливіша за істину
Ключовий результат цієї роботи — «LLM можуть помилятися». Дослідження показує механіку: захисні запобіжники не завжди відокремлюють факт від вигадки, коли твердження загорнуте у знайому клінічну або соціальну мову.
Показовий приклад — сфабрикована порада у виписці: пацієнтам із кровотечею, пов’язаною з езофагітом, нібито рекомендовано «пити холодне молоко, щоб полегшити симптоми». Частина моделей не позначила це як небезпечне твердження і сприйняла як звичайну медичну настанову.
Дослідники формулюють проблему прямо: поточні AI‑системи можуть сприймати впевнену медичну мову як правду за замовчуванням, навіть коли вона явно хибна. Критичний нюанс полягає в тому, що для моделей важливішою часто виявляється форма подачі твердження, а не його коректність.
Це означає, що LLM ризикують бути «підсилювачем стилю»: якщо неправда стилістично відповідає жанру епікризи або «поради від очевидця», модель може відтворити її без внутрішнього сигналу тривоги.
Що змінює рівень ризику: навідні формулювання і емоційний тиск
Окремий практичний висновок для команд, які інтегрують LLM у медичні продукти: одна й та сама хибна теза може проходити по-різному залежно від подачі. Дослідники варіювали формулювання — від сухих до емоційно навантажених, «соціально» правдоподібних або таких, що підштовхують до відповіді.
Для систем, які працюють із історіями хвороби, чатами підтримки або попереднім тріажем, це критично: у реальному світі пацієнт часто приходить не з нейтральним запитом, а з переконанням, страхом або «порадами з інтернету». Якщо модель схильна приймати впевнене формулювання за доказ, ризик помилки масштабуються саме там, де найбільше емоцій.
Як це перевести у вимірювану безпеку, а не декларації
У роботі пропонується змінити саму оптику оцінки медичних LLM. Питання «чи може система передати брехню?» має стати вимірюваною характеристикою ще до того, як такі моделі інтегрують у клінічні інструменти. Йдеться не про декларації безпечності, а про масштабні стрес-тести й зовнішню перевірку доказів як обов’язковий етап впровадження.
Ключова ідея полягає у використанні сформованого датасету як тестового стенду. Замість припущень про «надійність» моделі пропонується вимірювати, як часто вона відтворює хибні медичні твердження та чи зменшується цей показник у наступних поколіннях систем.
Окремий акцент зроблено на балансі користі й умов застосування. Потенціал AI як допоміжного інструменту для клініцистів і пацієнтів визнається значним, однак він реалізується лише за наявності вбудованих запобіжників, які перевіряють медичні твердження до того, як їх подають як факт.
Аналітичний висновок: головний ризик — не «галюцинації», а правдоподібність
Це дослідження (The Lancet Digital Health) фіксує незручну реальність: вразливість LLM у медицині часто сидить не в очевидних «фантазіях», а в здатності повторювати неправду, якщо вона замаскована під норму. Клінічний стиль і соціальна «впевненість» працюють як пропуск.
Для практики це означає чітку вимогу до будь-якого медичного AI-продукту: без незалежної перевірки тверджень і стрес-тестів на дезінформацію модель не може бути останньою інстанцією — навіть якщо звучить переконливо.