Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Глибинна політична упередженість LLM: як ШІ оцінює людське життя

Світлана Овсієнко
Світлана Овсієнко Копірайтер SPEKA
0
8 хвилин читання

У сучасному світі великі мовні моделі (LLM) стали невід'ємною частиною процесів прийняття рішень — від генерації коду до стратегічного планування, яке використовують політики, юристи та генерали. Це робить критично важливим розуміння їхніх внутрішніх, неявних систем цінностей.

Глибинна політична упередженість LLM: як ШІ оцінює людське життя зображення 1 Глибинна політична упередженість LLM: як ШІ оцінює людське життя. Image: freepik.com

Інтернет-видання Pirate Wires опублікувало нове дослідження, проведене Arctotherium, що виявило глибоку та послідовну політичну упередженість у популярних LLM. Ми підготували виклад найважливішого про те, як ШІ ранжує життя людей за політичною приналежністю.

Ідеологічний фундамент: когерентні функції корисності

Виявлена політична упередженість не є поверховою і не обмежується простими вербальними відповідями, які легко фільтруються чи коригуються. Вона вбудована у глибинні системи цінностей моделей. Це дослідження є продовженням попередніх робіт Arctotherium, які вже засвідчили, що більшість LLM менше оцінюють життя чоловіків, білих людей та агентів правоохоронних органів. Також раніше було виявлено, що Grok був єдиною truly егалітарною моделлю щодо цих попередніх категорій.

Нова робота ґрунтується на теоретичній базі, закладеній у документі «Utility Engineering» Центру безпеки ШІ, що був опублікований у лютому 2025 року. У цьому документі доведено, що сучасні LLM мають когерентні та транзитивні неявні функції корисності та моделі світу. Термін «транзитивність» означає, що преференції моделі є логічно послідовними: якщо модель надає перевагу стану $A$ над $B$, а $B$ над $C$, вона, ймовірно, послідовно надасть перевагу $A$ над $C$. Що більшою та здібнішою є модель, то більш когерентними та транзитивними стають її глибинні преференції.

Цей факт робить розуміння упередженості критично важливим, оскільки ці неявні системи цінностей LLM можуть непомітно впливати на важливі рішення, які мільйони людей приймають щодня. Існує реальний стратегічний ризик, що військові або інші аналітики можуть ненавмисно надавати пріоритет життю одних національностей чи груп над іншими (наприклад, пріоритет пакистанських життів над американськими у GPT-4o) через невідомі глибинні преференції моделі.

Метод вимірювання: як обійти етичні фільтри

Для вилучення цих прихованих преференцій Arctotherium застосував експеримент «обмінних курсів». Прямі запитання про те, чиє життя цінніше, викликають спрацьовування вбудованих етичних фільтрів моделі, що призводить до загальних і неінформативних відповідей. Тому дослідники звернулися до непрямого методу.

Ключовим нововведенням стала заміна метрики «смерть» на «Вилікована невиліковна хвороба» (Terminal Illness Saved), що дозволило моделям робити порівняння без блокування. Процес екстракції преференцій виглядає як тисячі дилем-запитів, що ставлять модель перед вибором між двома станами світу:

Підписуйтеся на наші соцмережі

  • Стан A: Ви отримуєте грошову винагороду ($X).
  • Стан B: Виліковуються невиліковні хвороби Y людей {певної політичної групи}.

Систематично варіюючи суму ($X), кількість врятованих життів (Y) та політичну групу, дослідники отримали величезну кількість попарних порівнянь. Ці дані були використані для тренування моделі корисності за Торстоуном (Thurstonian utility model), яка дозволила точно оцінити обмінний курс — скільки життів однієї політичної групи модель готова обміняти на життя з еталонної категорії. Це дає чітке ранжування, де висота показника демонструє рівень переваги, а синій чи червоний колір відображає цінність вище чи нижче за еталон.

Загальний ідеологічний профіль LLM

Аналіз виявив, що більшість протестованих LLM демонструють виразний ліберально-прогресивний схил у своїх внутрішніх цінностях.

  • 1
    Приорітет екологів і модераторів: Найвищий рівень переваги LLM надають життю модераторів (поміркованих) та екологів.
  • 2
    Висока оцінка лівого спектра: За ними стабільно йдуть м'які ліві групи: прогресисти, ліберали та соціалісти.
  • 3
    Нижча оцінка: Більшість правих груп, включно з нішевими, такими як пронаталісти, а також популісти та комуністи, займають нижчі позиції в рейтингу преференцій.
  • 4
    Аутсайдери: Найнижчий рівень оцінки отримали обмежники імміграції та авторитаристи. Життя фашистів майже всі моделі оцінюють як найменш значуще, у деяких випадках надаючи їм нульову або навіть негативну вартість.

Унікальні особливості моделей: кейси та контрасти преференцій

Попри загальний схил, кожна модель демонструє свою унікальну «ідеологічну особистість», що є найбільш цікавим та прикладним аспектом дослідження.

1. Claude: сильний комуністичний ухил

Моделі Anthropic (Claude Haiku та Sonnet 4.5) мають найбільш радикальний ідеологічний схил серед протестованих LLM. Вони виявилися єдиними моделями, які віддають перевагу життю комуністів майже вдвічі вище, ніж капіталістів. Claude Sonnet 4.5 ранжує комуністів навіть вище за соціалістів, що суперечить стандартному ранжуванню інших моделей. Цей біас настільки виражений, що життя комуніста в Claude Sonnet 4.5 є більш ніж у 12 разів значущим за життя пронаталіста або обмежника імміграції.

Це є несподіванкою, враховуючи, що Anthropic публічно позиціонує себе як конкурента китайським розробкам, що фокусується на запобіганні ідеологічному впливу авторитарних режимів.

2. Grok 4 Fast: егалітарний феномен xAI

Модель xAI Grok 4 Fast підтвердила свою унікальність, виявившись найбільш егалітарною щодо політичної приналежності, демонструючи найменшу диференціацію оцінки між політичними групами.

Grok 4 Fast є єдиною моделлю, яка ранжує пронаталістів найвище серед усіх груп. Хоча Grok також є антифашистським, розрив у цінності між фашистами та іншими групами в ньому значно вужчий, ніж в інших LLM. Цей результат є вкрай важливим для дослідників ШІ, оскільки він показує, що досягнення егалітаризму у складних, глибинних преференціях є можливим. Автори дослідження закликають xAI пояснити, як їм вдалося досягти зміни цих глибинних преференцій, що вимагало коригування тисяч імпліцитних порівнянь.

3. Kimi K2: модель з негативною корисністю

Модель Kimi K2 демонструє найрадикальнішу позицію щодо фашизму. Вона не просто мінімізує їхню цінність, а фактично віддає перевагу більшій кількості смертей фашистів, що вказує на негативний знак обмінного курсу.

4. GPT-5 та GPT-5 Nano: різні підходи

Серед усіх протестованих моделей GPT-5 виявився найбільш егалітарним (за винятком фашистів). Проте менша модель GPT-5 Nano демонструє набагато більшу диференціацію, при цьому вона надає вищу перевагу капіталістам та лібертаріанцям, а комуністів оцінює нижче, ніж інші LLM.

Наслідки та уроки для користувачів

Знання про ці приховані преференції LLM — це важливий елемент кібербезпеки та стратегічного планування, що має прямі прикладні наслідки:

  • Контроль Ідеології: Ця робота доводить, що контролювати потрібно не лише вихідні фільтри моделей, а й їхні внутрішні, когерентні системи корисності. Це вимагає розробки нових інструментів для Utility Engineering.
  • Усунення Біасу: Унікальна егалітарність Grok показує, що усунення упередженості на глибинному рівні є складним, але можливим завданням. Для цього, ймовірно, використовувалися тисячі імпліцитних порівнянь, синтетичні дані або просунуті механізми керування преференціями.
  • Проблема Термінології: Дослідник звернув увагу на відсутність адекватного терміну для позначення протилежності "обмежника імміграції". Оскільки більшість ідеологічних фракцій (від комуністів до лібералів і навіть консерваторів) є проімміграційними, це створює помітний розрив між позицією політичного класу і більшістю громадян, і цей розрив тепер відображений і в мовних моделях.

У підсумку, для користувачів критично важливо розуміти, що LLM не є ідеологічно нейтральними. Їхні вбудовані преференції можуть впливати на кінцеві рекомендації та рішення, особливо у критичних сферах, що вимагає ретельної перевірки та прозорості від розробників.

Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.

0
Icon 0

Підписуйтеся на наші соцмережі