什么是OCR
识别图片上的文字,进行处理,将这些文字转换成可以复制粘贴的格式
OCRmyPDF
OCRmyPDF用python编程,可以在各种平台上运行。下面以win11系统为例进行演示
安装依赖项
- Tesseract OCR ⇒ 进行OCR识别
- Ghostscript ⇒ PDF的渲染器解释器
- unpaper ⇒ 扫描件的去噪
确保自己有python在3.8及以上
安装Chocolatey
Chocolatey 是window系统下的一个包管理器,方便用户更快更方便的安装软件
- 以管理者运行power shell
- 运行下面这段代码进行安装。
Set-ExecutionPolicy Bypass -Scope Process -Force
[System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072
iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
完成后重启power shell
- 运行下面这段代码检查是否安装成功
choco --version
如果安装卡在某步,我随机试出来的办法是随机选择某个片段,Ctrl + C
安装Tesseract OCR,Ghostscript,unpaper
以上安装要在管理员运行的power shell操作
- 运行
choco install tesseract -y
choco install ghostscript -y
choco install unpaper -y
- 验证安装是否成功
tesseract --version
其他的同理
Tesseract OCR默认不会安装中文语言包,可以在github找到开头是 chi_sim 的语言包,直接下载到
C:\Program Files\Tesseract-OCR\tessdata
官网链接:https://github.com/tesseract-ocr/tessdata
相关操作指令
下面列几个常用的功能(在power shell运行即可)
ocrmypdf input.pdf output.pdf #进行ocr处理
ocrmypdf --sidecar output.txt input.pdf output.pdf #同时生成.txt文件