Grammarly представила другу версію GEC-корпусу української мови

3 хвилин читання

Компанія Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію анотованого GEC-корпусу української мови (GEC — grammatical error correction), яка містить майже 34 000 речень. 

Команда Grammarly запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року. Першу версію корпусу UA-GEC, яка містила близько 20 000 речень, вона опублікувала у відкритому доступі у січні 2021 року та відтоді працювала над його розширенням та покращенням. Другу версію вже можна вільно завантажити на GitHub. 

UA-GEC 2.0 — друга версія анотованого GEC-корпусу української мови

GEC-корпус — це сукупність текстів, авторами яких може стати кожен. Grammarly перевіряє ці тексти на наявність граматичних, стилістичних чи орфографічних помилок та викладає отримані дані у відкритий доступ. Після цього їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Корпус використовують для наукового та практичного вивчення мови.

Підписуйтеся на наші соцмережі

Читайте також: Коли підприємець у США відкриває Grammarly, студент у Бразилії шукає викладача через Preply, а власник Mac очищає ноутбук за допомогою CleanMyMac, вони навряд чи думають про Київ. Проте саме в українській столиці були створені продукти, якими сьогодні користуються сотні мільйонів людей у всьому світі.

Значення проєкту

Тоді як для англійської мови існує чимало анотованих GEC-корпусів, історично для багатьох мов, включно з українською, таких даних у публічному доступі не було. Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті. GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання. Що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 тис. речень, чеської — близько 47 тис. речень, а англійської —  1 млн 167 тис. речень. Корпус UA-GEC 2.0 містить 33 735 речень (500 618 токенів).

Чим відрізняється версія UA-GEC 2.0 від попередньої

  • Збільшили розмір корпусу майже вдвічі — до майже 34 000 речень; 
  • Додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно):
  • Завантажили корпус у двох варіантах — тепер його можна використовувати у двох різних завданнях: виправленні тільки граматики і виправленні граматики та стилю.

Нагадаємо, що сьогодні відзначають День української писемності та мови.

Раніше стало відомо, що вперше в історії кіберспорту найбільший кіберспортивний івент — Фінал турніру The International 2022 з Dota 2 — коментували українською