Олександр Борняков про те, як українська LLM боротиметься із застарілими даними, model collapse та дезінформацією
4 листопада відбувся WINWIN Summit 2025. Представники держави, бізнесу, суспільства та партнери з різних країн об'єдналися для обговорення питань цифровізації України, укладення партнерств та прем'єрного ознайомлення зі стратегією цифрового розвитку інновацій України WINWIN до 2030 року.
На пресконференції SPEKA поставила запитання Олександру Борнякову, заступнику міністра цифрової трансформації з питань європейської інтеграції, стосовно української LLM та актуальності даних, на яких її навчатимуть.
На ІТ Арена 2025 Михайло Федоров анонсував, що для навчання української LLM Мінцифри планує оцифрувати національні бібліотеки та архіви й навчати мовну модель на них. Але в такому разі LLM не матиме доступу до актуальної інформації, свіжих новин тощо, і через це частина користувачів може продовжувати користуватися популярними мовними моделями, як-от Chat GPT або Gemini, ігноруючи українську. Як плануєте боротися з цим?
В принципі там не так все працює. Не буде такої ситуації, коли українська модель чомусь буде гірша і відставатиме.
По-перше, українська велика мовна модель буде побудована на базі open-source моделі, вже наявної. Зараз є вибір між Google, Meta, Stripe. Вона буде відкритою, постійно навчатиметься та оновлюватиметься.
Плюс українська LLM буде постійно навчатися на нових даних.
Це не працює як, наприклад, Windows, який ти встановив, він
оновлюється, але все одно це Windows 10, а для того, щоб користуватись
Windows 11, потрібно буде його встановлювати.
LLM постійно знаходитиметься у процесі донавчання, вона ніколи не буде відставати від того, що у світі відбувається, як побудовані алгоритми.
Підписуйтеся на наші соцмережі
І я не думаю, що може бути така ситуація, коли українська велика мовна модель буде чомусь гірша за інші.
Зараз все, що відбувається в AI-сфері, — це дуже швидкі зміни. Щодня щось стається, одна модель може випереджати інші за бенчмарками, а потім в інших моделей виходять оновлення — і все змінюється.
У нас буде щось подібне. Теоретично в якийсь момент наша LLM, можливо, буде відставати, але вона не буде настільки погана, щоб переставати нею користуватись.
Ви казали, що модель постійно оновлюватиметься. Є поширена проблема: коли ШІ вчиться на вже згенерованих даних і через це нові згенеровані відповіді дедалі менш якісні (model collapse). Це і в Chat GPT, і в Gemini, в усіх моделях. Як долатимете цю проблему в українській LLM?
Спеціально для цього ми створили декілька комітетів: етичний, культурний, правовий — і наповнюємо їх експертами. Це буде їхнє та наше завдання: працюватимуть команди, щоб такі речі поновлювати, виправляти. Після запуску моделі ми плануємо виділити рік на тестування. У кожного буде можливість повідомити, що не так, і ми будемо стежити, щоб це виправили.
Якщо за допомогою тестів ми зрозуміємо, що модель споживає неякісні дані, дезінформацію, а отже, дає неякісні відповіді, то ми будемо виправляти це.
Саме тому ми хочемо мати свою мовну модель.
Тому що інакше у нас немає ніякого контролю над такими речами. Який контроль ви маєте сьогодні над Chat GPT? Ніякий. Нещодавно я читав статтю про те, що більшість даних, на яких він натренований, — це російська пропаганда, і цього ніхто не може змінити. Ми з ними в контакті, але ти маєш зробити це кейсом і доводити, як в суді, що це треба змінювати.
А так, наша модель буде хоститись в Україні, направлятиметься групою експертів, і ми будемо мати вплив.
Проблема може статися, але у нас є запобіжники у вигляді вас всіх, хто буде допомагати нам тестувати, і комітетів, кожен з яких відповідатиме за певний аспект.
Нагадаємо, що ми також поспілкувались із Михайлом Федоровим про суверенну LLM-модель для України: як працюватиме, донавчатиметься та відрізнятиме фейки від правдивої інформації. Читайте на SPEKA.