Головна Штучний інтелект

Як Reinforcement Learning змінює AI та наближає нас до AGI

13 серпня 2025 13:00 9 хвилин читання

Як Reinforcement Learning змінює AI та наближає нас до AGI зображення 1

Як Reinforcement Learning змінює AI та наближає нас до AGI. Image: freepik.com

Нещодавно видання Forbes опублікувало статтю, що присвячена одній із найцікавіших тем у сучасному світі технологій – Reinforcement Learning (навчання з підкріпленням) та його неочікуваному відродженню. Цей матеріал змушує переглянути наше розуміння шляху до створення універсального штучного інтелекту (AGI). Ми підготували детальний виклад найважливіших тез з цієї публікації, щоб розібратися, чому ця давня концепція знову стала ключовою і як вона може змінити майбутнє технологій, які вже давно стали невід’ємною частиною нашого життя.

Подорож крізь час: від поведінкової психології до сучасної AI-сфери

Ідея Reinforcement Learning (RL) має глибоке коріння, що сягає майже століття тому, до експериментів психолога Б.Ф. Скіннера. Він досліджував, як поведінка тварин та людей змінюється залежно від позитивних і негативних стимулів, що призводило до формування бажаних реакцій. Пізніше, у 1970-х роках, Річард Саттон та Ендрю Барто формалізували ці ідеї, заклавши основи сучасної концепції RL.

Читайте також: Майбутнє ШІ: навички, які потрібно опанувати, щоб не залишитися позаду

Протягом десятиліть RL, як і нейронні мережі, залишався нішевою сферою, оскільки технології не дозволяли реалізувати його потенціал. Не вистачало обчислювальної потужності та величезних масивів даних. Проте в останні роки ситуація кардинально змінилася. Технологічний прогрес надав RL необхідні інструменти, і ця давня ідея знову набула критичного значення. Зараз її розглядають як центральний компонент на шляху до створення універсального штучного інтелекту.

Як працює Reinforcement Learning: базові механізми

Щоб зрозуміти важливість RL, потрібно розібратися в його основних компонентах. RL — це універсальний спосіб навчання, заснований на взаємодії зі світом та отриманні відгуків про свої дії. Агент навчається методом спроб і помилок, що дозволяє йому оптимізувати свою поведінку.

Центром цієї системи є взаємодія між Agent (агентом — ШІ-системою) та Environment (середовищем, у якому він діє). Наприклад, у шахах агент — це ШІ-гравець, а середовище — шахівниця. Агент не отримує прямих інструкцій. Замість цього він керується Policy — набором правил, що визначають, яку дію він має виконати в певному стані. Після кожної дії агент отримує Reward signal — негайний відгук від середовища, який вказує, чи була дія вдалою.

Ключовим елементом, що відрізняє RL від простого реагування на сигнали, є Value Function. Це власна оцінка агента, наскільки перспективним буде поточний стан середовища у довгостроковій перспективі. Завдяки цій функції агент може планувати та здійснювати дії, які здаються невигідними в короткостроковій перспективі, але принесуть перемогу в кінці. Цей механізм дозволяє системі не просто реагувати, а міркувати і будувати складні стратегії.

Підписуйтеся на наші соцмережі

Тріумф DeepMind і раптова поява LLM: неочікуваний поворот

Протягом більшої частини 2010-х років компанія DeepMind була головним популяризатором і лідером у сфері RL. Вони зробили на RL велику ставку, яка швидко окупилася знаковими перемогами. У 2016 році їхня система AlphaGo перемогла чемпіона світу з гри Го, що вважалося неможливим для комп’ютера. Наступного року AlphaZero самостійно навчилася грати в шахи, Го та сьоґі, перевершивши всіх існуючих чемпіонів. У 2019 році AlphaStar освоїла відеогру StarCraft — значно складніше середовище з неповною інформацією та грою в реальному часі.

Здавалося, що RL стане домінуючою парадигмою в AI. Але наприкінці 2010-х відбувся несподіваний поворот. З’явилася нова парадигма: самонавчання для авторегресивних мовних моделей. Компанія OpenAI випустила GPT-2, а потім GPT-3, які навчилися на величезних, нерозмічених наборах даних (по суті, на всьому інтернеті). Кульмінацією став вихід ChatGPT у 2022 році, який спричинив справжній бум. RL на кілька років відійшов у тінь, і деякі експерти навіть вважали, що DeepMind помилився, зробивши на нього ставку.

Нова ера: "убивча комбінація" RL та LLM

Насправді RL не зник. Навпаки, дослідники виявили, що його застосування до генеративних LLM створює «убивчу комбінацію». Вперше RL отримав доступ до мови та широких знань про світ, що містилися у великих мовних моделях. Концепції RL ідеально переносилися на LLM: модель ставала Agent, цифровий контекст — Environment, ваги моделі — Policy, а генерація токенів — це були «дії» агента.

Першою важливою технологією, що поєднала ці дві парадигми, став RLHF (Reinforcement Learning from Human Feedback). Цей метод використовує людські відгуки для тонкого налаштування LLM. Люди оцінюють відповіді моделі, вибираючи кращий варіант. На основі цих даних тренується окрема «модель винагороди», яка потім оцінює якість інших відповідей. Далі, алгоритм RL налаштовує основну модель, щоб вона генерувала відповіді з найвищими оцінками. Саме RLHF зробив ChatGPT таким успішним, дозволивши йому бути «корисним, чесним і безпечним».

Наступний кордон: міркування та RLVR

Новим, найважливішим досягненням AI за останній рік є покращена здатність мовних моделей до «міркування». Це не просто передбачення наступного слова, а здатність «думати» — розбивати складні завдання на менші кроки за допомогою «ланцюжків міркувань».

Щоб навчити моделі цьому, дослідники створили новий підхід — RLVR (Reinforcement Learning from Verifiable Rewards). Замість суб'єктивних людських відгуків, модель навчається на задачах, відповіді на які можна об'єктивно перевірити. Це можуть бути математичні задачі або завдання з програмування. Агент отримує позитивну винагороду, якщо його ланцюжок міркувань призвів до правильної відповіді. Цей сигнал використовується для підкріплення правильних логічних послідовностей, що робить моделі значно ефективнішими у вирішенні багатоетапних проблем.

Виклики та майбутнє: чи може RL узагальнювати знання?

Попри всі успіхи, перед RL стоять серйозні виклики. Головне питання — чи можна застосувати його у сферах, де немає об'єктивно перевірених відповідей. Наприклад, як оцінити якість вірша, написати його, або дати кар'єрну пораду? Більшість важливих для людей доменів не мають чіткої та легкої винагороди.

Це питання призводить до дискусії про узагальнення (transfer learning). Прихильники RL стверджують, що навички міркування, отримані на математичних і кодувальних задачах, можуть узагальнюватися на інші, менш структуровані домени. Наче вміння вирішувати математичні задачі — це універсальна когнітивна навичка. Однак наразі немає переконливих доказів цього.

Альтернативний підхід — RLAIF (Reinforcement Learning from AI Feedback), де одна LLM оцінює відповіді іншої. Але це може просто повернути нас до моделі RLHF, де модель буде засвоювати переваги, присутні в її навчальних даних, а не знаходити об’єктивну істину.

Попри ці виклики, провідні AI-лабораторії роблять ставку на масштабування RL. Історія AI показує, що «закони масштабування» — хоча й не справжні закони, але емпірично довели свою ефективність. Вони можуть подолати такі проблеми, як неефективність щодо зразків та «розрідженість винагороди». Ніхто не знає напевно, що станеться, коли RL буде масштабовано на безпрецедентні обсяги.

На шляху до «Move 37 moment»

Істинна обіцянка RL полягає в тому, що він не обмежений людською уявою чи знаннями. На відміну від інших методів, які навчаються на людських даних, RL може знаходити нові, нелюдські форми інтелекту. «Move 37 moment» — це архетипний приклад, коли AlphaGo зробив хід, що порушив тисячоліття людської мудрості в Го, але виявився геніальним. Цей хід навчив людство чогось нового про гру.

У світі генеративного AI такого моменту ще не було. Але саме RL має потенціал, щоб наблизити нас до нього. Завдяки RL ми можемо створити системи, які не просто відтворюють людський інтелект, а відкривають нові горизонти мислення, створюючи ідеї, які людина не могла навіть уявити.

Глосарій ключових понять

Reinforcement Learning (RL): Навчання з підкріпленням. Метод машинного навчання, де агент навчається, взаємодіючи зі середовищем і отримуючи винагороди чи покарання за свої дії.
Large Language Model (LLM): Велика мовна модель. Тип штучного інтелекту, що використовує великі обсяги текстових даних для генерації тексту, перекладу, відповідей на запитання тощо.
Artificial General Intelligence (AGI): Універсальний штучний інтелект. Гіпотетичний AI, який володіє інтелектуальними здібностями на рівні людини і може виконувати будь-яке інтелектуальне завдання.
RLHF (Reinforcement Learning from Human Feedback): Навчання з підкріпленням на основі людських відгуків. Метод, що використовує оцінки людей для тонкого налаштування LLM, роблячи їх більш корисними та безпечними.
RLVR (Reinforcement Learning from Verifiable Rewards): Навчання з підкріпленням на основі перевірених винагород. Метод, що використовує об'єктивно перевірені відповіді (наприклад, у математичних задачах) для навчання AI міркуванню.

Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.