Как парсить документы
Идём сюда загружаем файл, смотрим результат.
Сборка и запуск
Команды запуска сервиса DeDoc:
docker build . -t dedoc_container
docker run -p 1231:1231 --rm dedoc_container:latest python3 /dedoc/main.py
-> Cервис поднимется на порту 1231
Параметры можно указать в конфигурационном файле (dedoc_project/dedoc/config.py)
Конфиг это файл на языке python, поэтому можно пользоваться всем, что умеет стандартный python, например вычислять максимальный размер файла как 512 * 1024 * 1024
Как использовать
Необходимо отправить файл с помощью POST запроса по адресу host:1231/upload
Имя вгруженного файла должно появиться на форме.Дополнительные опции запроса:
- language: str - язык рапознавания документа. По-умолчанию установлено значение "rus+eng". Доступные значения: "rus+eng", "rus", "eng".
- insert_table: boolean - опция включает встраивание таблицы в документное дерево. По-умолчанию установлено значение False. Доступные значения True, False.
- with_attachments: boolean - опция включающая анализ вложенных файлов. По-умолчанию установлено значение False. Доступные значения True, False.
- return_format: str - опция для возврата ответа в html-виде, в виде дерева или в виде json.
Возможные значения html, tree, json, pretty_json
По-умолчанию установлено значение json, остальные методы стоит использовать только для дебага
Предупреждение: html-формат используется исключительно для просмотра результата распознавания (в читабельном виде). В целях дальнейшего разбора рекомендуем использовать выходной json-формат. - structure_type: string - тип выходной структуры ('linear' или 'tree')