Skip to content

Практические кейсы, для примеров блокнотов. #484

@nikitaCodeSave

Description

@nikitaCodeSave

Dedoc - интересная и комплексная библиотека.
Но порог входа очень высокий.
Пример кейсов, в которых Dedoc может быть интегрирован.

Классификация документов
Описание кейса:
В организации есть поток входящих документов от клиентов. Документы предоставляются в следующих форматах:
⁃ pdf: машиночитаемый формат и сканы
⁃ tiff: сканы
⁃ jpeg: сканы
⁃ png: сканы
⁃ doc, docx: машиночитаемый формат

Бизнес-задача:
Классифицировать поток входящих документов по предоставленным классам.
Например, паспорт, доверенность, учредительные документы, договор и иное.
ML-задача:

  1. Получить документ
  2. Распознать формат и тип документа (машиночитаемый формат или скан)
  3. Извлечь текст из документа в структурированном виде (заголовки\ абзацы \ блоки)
  4. Сохранить текст для его дальнейшей классификации иным инструментом

scan

Извлечение табличных данных
Описание кейса:
Поток входящих документов с табличными данными.
Документы предоставляются в следующих форматах:
⁃ pdf: сканы
⁃ tiff: сканы
⁃ jpeg: сканы
⁃ png: сканы

Бизнес-задача:
Извлечь табличные данные для последующей обработки в табличном виде(.csv).
Например, Отчетности, спецификации, анкеты.
ML-задача:

  1. Получить документ
  2. Распознать формат и тип документа (одностраничный или многостраничный)
  3. Извлечь таблицы из документа в структурированном виде (собрать разделенные таблицы на разных листах, отделить таблицы с одного листа, если их несколько)
  4. Сохранить отдельные таблицы для дальнейшей обработки

image_1
image_2

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions