Grammarly представила другу версію GEC-корпусу української мови
Компанія Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію анотованого GEC-корпусу української мови (GEC — grammatical error correction), яка містить майже 34 000 речень.
Команда Grammarly запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року. Першу версію корпусу UA-GEC, яка містила близько 20 000 речень, вона опублікувала у відкритому доступі у січні 2021 року та відтоді працювала над його розширенням та покращенням. Другу версію вже можна вільно завантажити на GitHub.
GEC-корпус — це сукупність текстів, авторами яких може стати кожен. Grammarly перевіряє ці тексти на наявність граматичних, стилістичних чи орфографічних помилок та викладає отримані дані у відкритий доступ. Після цього їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Корпус використовують для наукового та практичного вивчення мови.
Підписуйтеся на наші соцмережі
Значення проєкту
Тоді як для англійської мови існує чимало анотованих GEC-корпусів, історично для багатьох мов, включно з українською, таких даних у публічному доступі не було. Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті. GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання. Що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 тис. речень, чеської — близько 47 тис. речень, а англійської — 1 млн 167 тис. речень. Корпус UA-GEC 2.0 містить 33 735 речень (500 618 токенів).
Чим відрізняється версія UA-GEC 2.0 від попередньої
- Збільшили розмір корпусу майже вдвічі — до майже 34 000 речень;
- Додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно):
- Завантажили корпус у двох варіантах — тепер його можна використовувати у двох різних завданнях: виправленні тільки граматики і виправленні граматики та стилю.
Нагадаємо, що сьогодні відзначають День української писемності та мови.
Раніше стало відомо, що вперше в історії кіберспорту найбільший кіберспортивний івент — Фінал турніру The International 2022 з Dota 2 — коментували українською.