-
Notifications
You must be signed in to change notification settings - Fork 44
Description
Dedoc - интересная и комплексная библиотека.
Но порог входа очень высокий.
Пример кейсов, в которых Dedoc может быть интегрирован.
Классификация документов
Описание кейса:
В организации есть поток входящих документов от клиентов. Документы предоставляются в следующих форматах:
⁃ pdf: машиночитаемый формат и сканы
⁃ tiff: сканы
⁃ jpeg: сканы
⁃ png: сканы
⁃ doc, docx: машиночитаемый формат
Бизнес-задача:
Классифицировать поток входящих документов по предоставленным классам.
Например, паспорт, доверенность, учредительные документы, договор и иное.
ML-задача:
- Получить документ
- Распознать формат и тип документа (машиночитаемый формат или скан)
- Извлечь текст из документа в структурированном виде (заголовки\ абзацы \ блоки)
- Сохранить текст для его дальнейшей классификации иным инструментом
Извлечение табличных данных
Описание кейса:
Поток входящих документов с табличными данными.
Документы предоставляются в следующих форматах:
⁃ pdf: сканы
⁃ tiff: сканы
⁃ jpeg: сканы
⁃ png: сканы
Бизнес-задача:
Извлечь табличные данные для последующей обработки в табличном виде(.csv).
Например, Отчетности, спецификации, анкеты.
ML-задача:
- Получить документ
- Распознать формат и тип документа (одностраничный или многостраничный)
- Извлечь таблицы из документа в структурированном виде (собрать разделенные таблицы на разных листах, отделить таблицы с одного листа, если их несколько)
- Сохранить отдельные таблицы для дальнейшей обработки