LOGO OA教程 ERP教程 模切知识交流 PMS教程 CRM教程 开发文档 其他文档  
 
网站管理员

【开源算法】RapidOCRPDF:依托于RapidOCR仓库,快速提取PDF中文字,包括扫描版PDF、加密版PDF

admin
2023年12月7日 12:27 本文热度 1214
01  项目链接
https://github.com/RapidAI/RapidOCRPDF

02  项目简介
  • 依托于RapidOCR仓库,快速提取PDF中文字,包括扫描版PDF、加密版PDF。

  • 如果是可以直接复制的PDF,可以直接使用pdf2docx,不再重复造轮子

  • 如果是扫描版PDF,暂时不支持版式还原,后续有空会考虑加上,日期不定。


03  使用

1、安装rapidocr_pdf库 

# 基于rapidocr_onnxruntimepip 
# 基于rapidocr_openvinopip

2、使用

  • 脚本使用
from rapidocr_pdf import PDFExtracter
pdf_extracter = PDFExtracter()
pdf_path = 'tests/test_files/direct_and_image.pdf'
texts = pdf_extracter(pdf_path)
print(texts)
  • 命令行使用
$ rapidocr_pdf -h
usage: rapidocr_pdf [-h] [-path FILE_PATH]
options:
-h, --help            show this help message and exit
-path FILE_PATH, --file_path FILE_PATH 
                       File path, PDF or images
$ rapidocr_pdf -path tests/test_files/direct_and_image.pdf

3、输入输出说明

  • 输入union[str, Path, bytes]

  • 输出List [页码文本内容置信度], 具体参见下例:

[
    ['0', '人之初,性本善。性相近,习相远。', '0.8969868'],
        ['1', 'Men at their birth, are naturally good.', '0.8969868'],
]


04  更新日志

  • 2023-08-28 v0.0.6 update:

    • 解决PyMuPDF版本依赖问题

  • 2023-04-17 v0.0.2 update:

    • 完善使用文档


-END-

该文章在 2023/12/7 12:29:51 编辑过
关键字查询
相关文章
正在查询...
点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。
点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理,结合码头的业务特点,围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体,是物流码头及其他港口类企业的高效ERP管理信息系统。
点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。
点晴免费OA是一款软件和通用服务都免费,不限功能、不限时间、不限用户的免费OA协同办公管理系统。
Copyright 2010-2024 ClickSun All Rights Reserved