OCRmyPDF---初使用

浮FM梦

于 2025-06-04 17:06:33 发布

阅读量458

点赞数 4

CC 4.0 BY-SA版权

文章标签： pdf ocr

本文链接：https://blog.csdn.net/2401_86135736/article/details/148429151

OCRmyPDF

什么是OCR
OCRmyPDF

什么是OCR

识别图片上的文字，进行处理，将这些文字转换成可以复制粘贴的格式

OCRmyPDF

OCRmyPDF用python编程，可以在各种平台上运行。下面以win11系统为例进行演示

安装依赖项

Tesseract OCR ⇒ 进行OCR识别
Ghostscript ⇒ PDF的渲染器解释器
unpaper ⇒ 扫描件的去噪

确保自己有python在3.8及以上

安装Chocolatey

Chocolatey 是window系统下的一个包管理器，方便用户更快更方便的安装软件

以管理者运行power shell
运行下面这段代码进行安装。

Set-ExecutionPolicy Bypass -Scope Process -Force
[System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072
iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

完成后重启power shell

运行下面这段代码检查是否安装成功

choco --version

如果安装卡在某步，我随机试出来的办法是随机选择某个片段，Ctrl + C

安装Tesseract OCR，Ghostscript，unpaper

以上安装要在管理员运行的power shell操作

运行

choco install tesseract -y

choco install ghostscript -y

choco install unpaper -y

验证安装是否成功

tesseract --version

其他的同理

Tesseract OCR默认不会安装中文语言包，可以在github找到开头是 chi_sim 的语言包，直接下载到
C:\Program Files\Tesseract-OCR\tessdata
官网链接：https://github.com/tesseract-ocr/tessdata