Штучний інтелект в обробці документів: чому Gemini 2.0 лідирує у 2025?
У сучасному бізнесі ефективна обробка документів має критичне значення. У Paysera, міжнародній фінтех-компанії з понад 550 000 клієнтів, ми шукали інструмент для ефективного вилучення тексту з великих потоків документів. У цій статті проаналізуємо досвід та останні дослідження щодо потенціалу великих мовних моделей (LLM) у цій сфері.
З 2023 року ми тестували Google Document AI — сервіс Google для автоматичного розпізнавання та аналізу тексту в документах (PDF, скани, зображення). Наразі, це один з лідерів у цьому класі сервісів.
Google Document AI: переваги та недоліки
Переваги:
- Ідеальний для шаблонних документів: Обробляє PDF-інвойси за 1–3 сек/стор. з точністю 99.8% (CER ≤0.2%).
- Найкраща ціна серед конкурентів: Від $1 за 1000 сторінок (у 2 рази дешевший за Azure AI, Amazon Textract).
- Підтримка рідкісних мов: 120+ мов, включаючи литовську, латиську, естонську.
- Безпека для регульованих індустрій: Відповідність GDPR, HIPAA, ISO 27001. Дані обробляються виключно в інфраструктурі Google. Шифрування даних під час передачі та зберігання.
Підписуйтеся на наші соцмережі
Недоліки:
- Проблеми зі складно структурованими документами: CER (Character Error Rate) може зростати до 15–20% при обробці нестандартних таблиць або рукописних нотаток.
- Обмежена масштабованість: Під час пікових навантажень API іноді повертає помилку "Model Overloaded" з очікуванням в черзі до 15 хвилин.
- Потреба в кастомних пайплайнах: Для вилучення тексту з таблиць потрібна окрема модель, яка підтримує лише 50+ мов, що вимагає створення власних пайплайнів для рідкісних мов.
Gemini: чому ми перейшли на LLM?
Дослідження Benchmarking Vision-Language Models on OCR in Dynamic Video Environments показало, що мультимодальні моделі, як Gemini, на 30–40% точніші за традиційні OCR у роботі з нестандартними документами. Враховуючи обмеження Google Document AI, зокрема затримки у відповіді при високому навантаженні, необхідність налаштування додаткових пайплайнів для специфічних задач та порівняно високу вартість, стали ключовим аргументом на користь Gemini 2.0 Flash.
Gemini: переваги та недоліки
Переваги:
- Найвища якість серед LLM: У тестах зі 1,477 кадрів із відео Gemini показала CER 0.2387 (у GPT-4o — 0.2378, але він у 2 рази повільніший). Вона легко аналізує складні сцени: текст поверх зображень, рекламні банери, рукопис.
- Розуміння контексту: На відміну від Document AI, Gemini самостійно визначає, де в PDF-файлі знаходиться сума до сплати або IBAN, навіть якщо документ не структурований.
- Мультимодальність: Обробляє одночасно текст, зображення, скріншоти інтерфейсів.
- Низька вартість: Значно дешевше за DocumentAI для скланих випадків.
Недоліки:
- Швидкість залежить від формату: Обробка зображень займає 1–2 секунди, а великих PDF (50+ сторінок) може займати більше 1 хвилини, що повільніше за Document AI.
- Необхідність точних інструкцій (prompt engineering): Для уникнення галюцинацій потрібні чіткі інструкції.
Порівняльна таблиця
Висновок:
Для малого бізнесу достатньо Document AI. Але якщо ваші документи — це хаос із скріншотами, рукописами та таблицями-«пірамідами», Gemini стане порятунком. Головне — не забути про Prompt Engineering та валідацію результатів.