Новий метод донавчання AI: економія ресурсів і запобігання забуванню

5 хвилин читання

У світі штучного інтелекту донавчання великих моделей під конкретні потреби є ключовим етапом їхньої адаптації. Однак цей процес часто супроводжується дорогим та неприємним явищем, відомим як «катастрофічне забування». Це призводить до того, що модель, набуваючи нових навичок, втрачає попередні. Американське видання VentureBeat написало про революційне дослідження, яке пропонує вирішення цієї проблеми шляхом перенавчання лише невеликих, критично важливих частин моделі. Ми підготували виклад найважливішого із цього матеріалу та пояснюємо, як цей підхід може скоротити витрати та вдосконалити якість AI-рішень.

Новий метод донавчання AI: економія ресурсів і запобігання забуванню. Image: freepik.com

Економічний глухий кут повного перенавчання

Навчання нової великої мовної моделі (LLM) або мультимодальної моделі (LMM) — це не просто тривалий, а й надзвичайно ресурсомісткий процес. За підрахунками, він може коштувати мільйони доларів, займати тижні часу і призводити до викидів сотень тонн CO2. З огляду на такі колосальні витрати, необхідність частого оновлення вже існуючих моделей створює серйозний економічний та екологічний тиск.

Читайте також: Компанія Anthropic тимчасово зупинила роботу своїх нових моделей штучного інтелекту Claude Fable 5 та Mythos 5 після вимог американської влади, яка висловила занепокоєння щодо їхніх можливостей у сфері кібербезпеки.

Традиційний підхід, де моделі тонко налаштовуються (fine-tune) для певної мети, часто призводить до того, що моделі «забувають» частину своїх здібностей, які вони вже освоїли. Підприємства, які прагнуть адаптувати великі базові моделі для своїх вузьких завдань, постійно стикаються з ризиком «катастрофічного забування», коли модель втрачає своє попереднє загальне знання.

Підписуйтеся на наші соцмережі

Новий погляд на «забування»: це не втрата пам’яті

Дослідники з Університету Іллінойсу Урбана-Шампейн висунули нову гіпотезу, яка перевертає уявлення про «катастрофічне забування». Вони стверджують, що це явище насправді не є істинною втратою пам'яті моделі, а лише побічним ефектом дрейфу упередженості (bias drift).

Вчені вважають, що те, що здається забуванням або інтерференцією після тонкого налаштування на вузьке завдання, насправді є упередженістю у вихідному розподілі (bias in the output distribution), спричиненою зміщенням розподілу завдань. У процесі експериментів було виявлено, що після значного падіння продуктивності моделі на відкладених бенчмарках (після тренування на завданні підрахунку), її здібності здебільшого відновлювалися на інших спеціалізованих завданнях, таких як PathVQA. Це свідчить про те, що втрата знань моделлю є лише тимчасовою, а не довготривалою проблемою.

Рецепт успіху: точкова хірургія моделі

Це ключове відкриття про тимчасовість забування лягло в основу нової методики. Замість перенавчання всієї моделі та суттєвого збільшення обчислювальних витрат, дослідники пропонують налаштовувати лише вузькі частини LLM. Ціль — зберегти ефективність навчання, водночас максимально обмежуючи зсув вихідних даних моделі (limiting output shift).

Дослідники сфокусувалися на внутрішньому механізмі прийняття рішень моделі — багатошаровому перцептроні (MLP). При цьому виявився ще один несподіваний результат: налаштування лише шарів проєкції самостійної уваги (Self-Attention Projection, SA Proj) призвело до дуже ефективного вивчення цільових завдань без падіння продуктивності на відкладених завданнях, навіть після послідовного навчання всіх п'яти цільових завдань. Водночас, було помічено, що налаштування MLP збільшувало ймовірність «виведення числових токенів», що корелювало зі значним падінням точності на відкладених завданнях.

Практична порада: як уникнути упередженості виводу

Щоб уникнути упередженості вихідного розподілу, вчені запропонували більш прямолінійний та відтворюваний метод. Вони рекомендують налаштовувати проєкції MLP up/gating, але при цьому залишати проєкцію down замороженою (frozen). Ця стратегія дозволяє досягти схожого рівня навчання, як і при повному налаштуванні MLP, але при цьому зберігає мінімальне забування.

Завдяки фокусу на вузькому сегменті моделі, а не на її оптовому перенавчанні, компанії можуть значно скоротити свої обчислювальні витрати. Крім того, цей метод забезпечує кращий контроль над дрейфом вихідних даних моделі.

Хоча дослідження було зосереджено лише на двох мультимодальних моделях (LLAVA та Qwen 2.5-VL), які працюють із візуальними даними та мовою, самі дослідники зазначають, що їхні висновки можуть бути поширені й на інші LLM, особливо ті, що працюють з різними модальностями. Таким чином, ця методологія пропонує не просто технічне рішення, а й новий, економічно вигідний та контрольований підхід до управління життєвим циклом AI-моделей.

Цей матеріал підготовлений на основі інформації з відкритих джерел. Редакція самостійно відбирає ключові факти, аналізує їх та структурує за допомогою AI-інструментів.