Процедурна пам’ять: як вона робить ШІ-агентів ефективнішими

8 хвилин читання

Онлайн-видання VentureBeat нещодавно опублікувало статтю про новаторську техніку, яка може вирішити одну з найгостріших проблем у світі штучного інтелекту — як навчити ШІ-агентів ефективно виконувати складні, багатоетапні завдання. Ми підготували для вас короткий виклад найважливішого, щоб розібратися, чому сучасні моделі «забувають» свій досвід і як нова концепція процедурної пам'яті змінює правила гри. У цьому матеріалі ми розглянемо, як це працює, які практичні переваги дає бізнесу і як завдяки цьому інструменту можна значно скоротити витрати на розроблення та використання ШІ.

Процедурна пам’ять: як вона робить ШІ-агентів ефективнішими. Image: lummi.ai

Чому звичайні ШІ-агенти «забувають» усе, що робили?

Сьогодні агенти, побудовані на основі великих мовних моделей, демонструють неймовірні здібності в автоматизації багатьох бізнес-процесів, що складаються з кількох кроків. Однак на практиці ці системи є доволі крихкими. Уявіть собі агента, якому доручено забронювати подорож: достатньо однієї непередбачуваної події, як-от збій мережі або зміна інтерфейсу вебсайту, і весь процес може зірватися. У таких випадках чинні агенти часто не мають іншого виходу, окрім як починати все заново. Це не лише марнує час, а й призводить до значних витрат.

Читайте також: Коли ми робимо щось звичне: одягаємося, пишемо повідомлення чи танцюємо, здається, ніби тіло все робить саме, це це вважають м’язовою пам’яттю. Але насправді м’язи нічого не запамʼятовують. Дослідники з Університету Західного Сіднея зʼясували, чому деякі навички запамʼятовуються нам на роки, пише Science Alert.

Коли людина вчиться кататися на велосипеді, вона не починає з нуля після кожної невдачі. Натомість мозок формує процедурну пам'ять — знання, яке стає автоматичним з практикою. Поточні ШІ-системи, на жаль, такої можливості позбавлені. Їхнє знання зазвичай закодоване розробниками вручну, зберігається у жорстких шаблонах або жорстко вбудоване у параметри моделі. Оновлення таких систем — справа повільна, дорога і часто неефективна. У результаті агенти не можуть еволюціонувати та покращувати свою продуктивність з кожним новим досвідом, оскільки немає універсального механізму, що дозволяє їм витягувати та повторно використовувати свої навички.

Як працює процедурна пам’ять за моделлю Memp?

Дослідники з Чжецзянського університету та Alibaba Group запропонували рішення, яке вони назвали Memp. Це гнучкий фреймворк, що трактує процедурну пам'ять як ключовий компонент для оптимізації. Система Memp складається з трьох послідовних етапів, які працюють у безперервному циклі, що дозволяє агенту постійно вчитися та адаптуватися до реальних умов.

Підписуйтеся на наші соцмережі

На першому етапі, побудові пам’яті, система аналізує минулий досвід агента, так звані «траєкторії». Ці траєкторії можуть бути збережені як точні, покрокові дії або ж бути перетворені на абстрактні скрипти вищого рівня, що описують загальний алгоритм вирішення задачі. Такий підхід дозволяє агенту узагальнювати свій досвід.

Далі слідує етап отримання пам’яті. Коли агент отримує нове завдання, він шукає у своїй пам'яті найрелевантніший досвід. Для цього використовуються різні методи, включаючи векторний пошук або виділення ключових слів. Наприклад, якщо новим завданням є «розігріти їжу», агент може швидко знайти спогад про те, як він раніше користувався мікрохвильовою піччю.

Однак найважливішим компонентом є механізм оновлення пам'яті. Саме він забезпечує еволюцію системи. Після завершення завдання агент може оновити свою пам’ять, просто додавши новий досвід, відфільтрувавши тільки успішні результати або, що є найефективнішим, проаналізувавши невдачі. Рефлексія над помилками дозволяє агенту зрозуміти, що пішло не так, та виправити оригінальну пам'ять, що в кінцевому підсумку робить його кращим.

Чим Memp відрізняється від інших систем пам'яті?

Подібні фреймворки, як-от Mem0 чи A-MEM, вже існують. Проте є одна критична відмінність. Ці системи здебільшого зосереджені на запам'ятовуванні «що» сталося в межах однієї розмови або одного сеансу. Наприклад, вони можуть пам'ятати, про що йшла мова в довгому діалозі. Memp, навпаки, орієнтується на міжтраєкторну процедурну пам’ять, тобто на знання «як зробити», яке можна узагальнити для різних, але структурно схожих завдань. Це дозволяє агенту не досліджувати кожен раз з нуля, а спиратися на вже здобуті навички.

Вирішення проблеми «холодного старту»

Одна з практичних проблем полягає в тому, як агент взагалі починає вчитися, коли в нього ще немає жодного ідеального прикладу для наслідування. Розробники Memp вирішили цю проблему прагматично. Замість того щоб надавати «ідеальну» траєкторію, вони визначають надійну метрику оцінки ефективності. Ця метрика, яка може бути заснована на правилах або навіть на іншій мовній моделі, оцінює якість виконання завдання. Потім агенту дозволяють досліджувати робочий процес, а система зберігає лише ті траєкторії, які отримали найвищі бали. Такий підхід дозволяє швидко створити початковий набір корисних спогадів, що дає новому агенту швидко розпочати роботу без обширного ручного програмування.

Практичні результати та головні переваги

Щоб перевірити ефективність Memp, команду розробників випробувала його на потужних мовних моделях, таких як GPT-4o та Claude 3.5 Sonnet, а також на менших моделях. Результати вражають. Агенти, оснащені процедурною пам'яттю, не тільки досягли вищих показників успіху, а й стали набагато ефективнішими. Вони усунули марні спроби та помилки, що призвело до значного скорочення як кількості кроків, так і споживання токенів, необхідних для виконання завдання.

Одним із найважливіших висновків для бізнесу є те, що процедурна пам’ять є переносною. В одному з експериментів пам’ять, згенерована потужною моделлю GPT-4o, була передана набагато меншій моделі Qwen2.5. У результаті менша модель отримала значний приріст продуктивності, що покращило її показники успішності та зменшило кількість необхідних кроків для виконання завдань. Ця можливість передачі знань є надзвичайно цінною, оскільки дозволяє навчати агента, використовуючи найсучасніші, але дорогі моделі, а потім розгортати ці знання на менших, більш економічних системах, не втрачаючи при цьому переваг здобутого досвіду.

Наступний крок: до справжньої автономії

Попри значні успіхи, шлях до повної автономії ще не завершений. Багато реальних завдань, як-от підготовка аналітичного звіту, не мають простого сигналу успіху, як-от «завдання виконано». Щоб агент міг безперервно вдосконалюватися, йому потрібно точно знати, чи добре він виконав свою роботу.

Дослідники бачать майбутнє у тому, що самі мовні моделі виступатимуть у ролі «суддів». Замість жорстко закодованих правил, які є крихкими та важкими для узагальнення, інша, більш потужна мовна модель, могла б надавати нюансовий зворотний зв’язок. Такий підхід дозволить агенту самостійно коригувати свою поведінку навіть у складних та суб’єктивних завданнях. Це зробить весь цикл навчання більш масштабованим і надійним, що є критично важливим кроком на шляху до створення стійких та справді автономних ШІ-працівників.

Глосарій ключових понять
  • Агент ШІ: автономна програмна система, яка може сприймати своє середовище, ухвалювати рішення та діяти для досягнення певної мети.
  • Процедурна пам'ять: тип пам'яті, що відповідає за навички та автоматичні дії, які набуваються через практику, наприклад, уміння кататися на велосипеді чи друкувати.
  • LLM (Large Language Model): велика мовна модель, тобто алгоритм глибокого навчання, що обробляє та генерує текст.
  • Токени: базові одиниці даних, що використовуються в LLM. Це можуть бути слова, частини слів або окремі символи.
  • Холодний старт: проблема, коли системі не вистачає початкових даних для ефективної роботи або навчання.

Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.