ШІ вигадує джерела: фальшиві посилання вже проходять peer review
Генеративні інструменти дедалі частіше допомагають дослідникам готувати рукописи — і саме в цьому місці з’явився новий ризик: переконливо оформлені посилання на роботи, яких не існує. У матеріалі Earth.com описано, як такі вигадані цитати потрапляють навіть у прийняті до публікації наукові роботи й просочуються крізь peer review.
Це не косметична помилка. Фальшива цитата ламає ланцюг перевірюваності: читач бачить «джерело», але не може відкрити його, звірити дані й повторити логіку аргументації.
Масштаб проблеми: цифри, які вже перетворилися на сигнал тривоги
Скан 4 841 прийнятої роботи виявив 100 вигаданих цитат у 51 поданні. Перевірку провела GPTZero, яка почала системно переглядати списки літератури після того, як стало помітно: помилки в посиланнях часто переживають рецензування.
Дані набувають особливої ваги через майданчик, де виявили порушення: згадуються конференційні публікації на кшталт NeurIPS — одного з найвибагливіших майданчиків у сфері штучного інтелекту.
У NeurIPS зауважили: навіть якщо близько 1,1% робіт містять одне або кілька неправильних посилань через використання великих мовних моделей, це не обов’язково знецінює ядро наукових результатів. Але така ремарка не знімає практичної проблеми — перевірка доказової бази перекладається на читача.
Чому мовні моделі вигадують джерела
Великі мовні моделі — це системи передбачення тексту, натреновані на масивах даних. Їхня сильна сторона — правдоподібність формулювань, а слабка — відсутність вбудованого механізму «звірити з бібліографією», якщо такого кроку не задає користувач.
Коли модель не має точного посилання, вона заповнює прогалину шаблонами: може змішати реальних авторів з неправильним журналом, роком чи деталями. Стилі цитування додають переконливої структури — і тому під час швидкого фінального редагування вигадані посилання легко минають увагу.
Цитування як валюта академічної кар’єри
Цитування вбудоване в систему академічних стимулів. У наймі, грантах і репутаційних рішеннях метрики часто стоять поруч із рекомендаціями, нагородами та видимістю в спільноті.
Підписуйтеся на наші соцмережі
Саме тому DORA (San Francisco Declaration on Research Assessment) закликає оцінювати зміст роботи, а не покладатися на журнальні показники як на «короткий шлях». Вигадані цитати в такій системі спотворюють сигнали: створюють ілюзію впливовості, яку неможливо перевірити.
Peer review на межі пропускної здатності
Обсяги подань роблять перевірку дедалі складнішою. Офіційна статистика для основного треку NeurIPS: 21 575 подань і 5 290 прийнятих робіт, тобто 24,52% acceptance rate. За таких масштабів організатори вимушені спиратися на велику мережу волонтерів-рецензентів, які паралельно ведуть власні дослідження, викладання й дедлайни.
Програмні голови писали, що обмежений час не дозволяв вручну повертатися до кожного «аномального» рішення, позначеного оцінками. У цій реальності список літератури стає тим місцем, яке найчастіше переглядають побіжно — і саме тому дрібні помилки можуть опинитися у фінальному записі.
Як насправді перевіряють посилання
Автоматизовані перевірки починаються з техніки: кожне посилання розкладають на складові, уніфікують написання та пунктуацію, після чого роблять запити до бібліографічних баз і онлайн-індексів. Записи без збігів позначаються як підозрілі.
Далі системи рахують «майже збіги», бо помилки часто ховаються в ініціалах, номерах сторінок або назвах конференцій. Навіть після цього потрібне людське рішення: старі книги й ранні препринти іноді відсутні в основних базах.
Реформа рецензування: стимулювати якість, а не швидкість
Дискусія про реформу посилюється, бо конференції залежать від доброї волі спільноти, а кількість подань зростає щороку. Згадується позиційний документ із пропозицією дозволити авторам оцінювати якість рецензій і давати рецензентам формальний кредит за роботу.
Такі зворотні зв’язки мають робити «шаблонні» огляди видимими для тієї ж спільноти, яка подає статті. Навіть за кращих стимулів автоматична перевірка цитувань лишається практичною необхідністю, щоб рецензенти витрачали час на результати, а не на механіку.
Як зупинити ефект доміно
Помилкові посилання не зупиняються на одному рукописі. Під дедлайни автори можуть переносити бібліографію з попередніх версій, чернеток або пов’язаних подань. Якщо у списку вже є вигадане посилання, воно переходить далі разом із текстом — непомітно, але з високою «видимістю» через правильне оформлення.
У великому конференційному потоці це створює каскад. Рецензенти перевіряють насамперед метод і результати; список літератури часто переглядають швидко. Далі та сама бібліографія може потрапити в інші матеріали — через копіювання формулювань і посилань у суміжних роботах. У підсумку помилка «розмножується», а її джерело стає дедалі важче відстежити.
Найпростіші запобіжники описані прямо.
Перше — ставитися до списку літератури як до доказової частини роботи, на рівні з таблицями й графіками.
Друге — використовувати менеджери посилань, які підтягують дані з баз і зменшують ручне введення назв, років та порядку авторів.
Третє — коли до підготовки тексту залучаєте мовну модель, перевіряти кожну назву в пошуковій системі або бібліографічній базі перед поданням. Така звичка додає кілька хвилин, але економить години читачам і знижує ризик, що «мертві» посилання перейдуть у наступні подання.
Що це означає для науки
Помилка в посиланні не обов’язково руйнує науковий результат, але вона руйнує прозорість доказової бази — а саме на цьому тримається довіра. Паралельно зростає адміністративний і репутаційний тиск: читачам складніше перевіряти твердження, організаторам і редакторам — утримувати якість у потоці, спільноті — довіряти формальним сигналам цитування.
Окремий ризик — «гібридні» помилки, де реальні автори поєднані з фальшивими деталями. Вони виглядають переконливо і найважче ловляться «на око».
Дані про еволюцію помилок у ШІ-цитуванні
Наведено результати попередніх тестів: чатботи здатні створювати відполіровані списки літератури навіть тоді, коли джерел не існує. Одне peer-reviewed дослідження показало, що 55% AI-згенерованих посилань ранньої моделі ChatGPT були вигаданими, а новіша версія знизила цей показник до 18%. Частина помилок залишилася «змішаною» — з реальними й фальшивими елементами в одному записі.
Генеративні інструменти підвищують швидкість підготовки рукописів, але одночасно підвищують ціну дрібних похибок у посиланнях. Масштаб подань і обмеження часу в peer review роблять списки літератури вразливою ділянкою, де правдоподібна вигадка може пройти непоміченою.
Захист від цього не потребує складних рішень: рутинна перевірка джерел, менеджери посилань і автоматизовані валідатори знімають значну частину ризику. Без таких практик навіть сильні результати отримують «шум» у доказовій базі, який повільно підточує довіру до наукової комунікації.