OCRmyPDF---初使用

什么是OCR

识别图片上的文字,进行处理,将这些文字转换成可以复制粘贴的格式

OCRmyPDF

OCRmyPDF用python编程,可以在各种平台上运行。下面以win11系统为例进行演示

安装依赖项

  1. Tesseract OCR ⇒ 进行OCR识别
  2. Ghostscript ⇒ PDF的渲染器解释器
  3. unpaper ⇒ 扫描件的去噪

确保自己有python在3.8及以上

安装Chocolatey

Chocolatey 是window系统下的一个包管理器,方便用户更快更方便的安装软件

  1. 以管理者运行power shell
  2. 运行下面这段代码进行安装。
Set-ExecutionPolicy Bypass -Scope Process -Force
[System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072
iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

完成后重启power shell

  1. 运行下面这段代码检查是否安装成功
choco --version

如果安装卡在某步,我随机试出来的办法是随机选择某个片段,Ctrl + C

安装Tesseract OCR,Ghostscript,unpaper

以上安装要在管理员运行的power shell操作

  1. 运行
choco install tesseract -y
choco install ghostscript -y
choco install unpaper -y
  1. 验证安装是否成功
tesseract --version

其他的同理

Tesseract OCR默认不会安装中文语言包,可以在github找到开头是 chi_sim 的语言包,直接下载到
C:\Program Files\Tesseract-OCR\tessdata
官网链接:https://github.com/tesseract-ocr/tessdata

相关操作指令

官方文档:https://ocrmypdf.readthedocs.io/en/latest/cookbook.html#basic-examples0

下面列几个常用的功能(在power shell运行即可)

ocrmypdf input.pdf output.pdf #进行ocr处理
ocrmypdf --sidecar output.txt input.pdf output.pdf #同时生成.txt文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值