Головна Оперативка

Grammarly представила другу версію GEC-корпусу української мови

9 листопада 2022 11:25 3 хвилин читання

Компанія Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію анотованого GEC-корпусу української мови (GEC — grammatical error correction), яка містить майже 34 000 речень.

Команда Grammarly запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року. Першу версію корпусу UA-GEC, яка містила близько 20 000 речень, вона опублікувала у відкритому доступі у січні 2021 року та відтоді працювала над його розширенням та покращенням. Другу версію вже можна вільно завантажити на GitHub.

UA-GEC 2.0 — друга версія анотованого GEC-корпусу української мови

GEC-корпус — це сукупність текстів, авторами яких може стати кожен. Grammarly перевіряє ці тексти на наявність граматичних, стилістичних чи орфографічних помилок та викладає отримані дані у відкритий доступ. Після цього їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Корпус використовують для наукового та практичного вивчення мови.

Підписуйтеся на наші соцмережі

Facebook Telegram Viber Youtube Instagram

Читайте також: Коли підприємець у США відкриває Grammarly, студент у Бразилії шукає викладача через Preply, а власник Mac очищає ноутбук за допомогою CleanMyMac, вони навряд чи думають про Київ. Проте саме в українській столиці були створені продукти, якими сьогодні користуються сотні мільйонів людей у всьому світі.

Значення проєкту

Тоді як для англійської мови існує чимало анотованих GEC-корпусів, історично для багатьох мов, включно з українською, таких даних у публічному доступі не було. Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті. GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання. Що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 тис. речень, чеської — близько 47 тис. речень, а англійської — 1 млн 167 тис. речень. Корпус UA-GEC 2.0 містить 33 735 речень (500 618 токенів).

Чим відрізняється версія UA-GEC 2.0 від попередньої

Збільшили розмір корпусу майже вдвічі — до майже 34 000 речень;
Додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно):

Завантажили корпус у двох варіантах — тепер його можна використовувати у двох різних завданнях: виправленні тільки граматики і виправленні граматики та стилю.

Нагадаємо, що сьогодні відзначають День української писемності та мови.

Раніше стало відомо, що вперше в історії кіберспорту найбільший кіберспортивний івент — Фінал турніру The International 2022 з Dota 2 — коментували українською.

Читати на speka.media

Меню

Grammarly представила другу версію GEC-корпусу української мови

Підписуйтеся на наші соцмережі

Інші матеріали