OCRmyPDF批量处理与自动化方案详解-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00878/article/details/148360333

OCRmyPDF批量处理与自动化方案详解

概述

OCRmyPDF是一款强大的开源工具，能够为PDF文件添加可搜索的OCR文本层。在实际应用中，我们经常需要处理大量PDF文件或实现自动化OCR处理流程。本文将详细介绍OCRmyPDF的批量处理方法和自动化配置方案。

批量处理方案

基础批量处理

使用GNU Parallel工具可以高效地并行处理多个PDF文件。以下命令会在当前目录下处理所有PDF文件，并将结果保存到output目录：

parallel --tag -j 2 ocrmypdf '{}' 'output/{}' ::: *.pdf

参数说明：

-j 2：限制同时运行2个任务，避免系统过载
--tag：在输出信息前添加文件名前缀，便于错误追踪

目录树处理

对于包含子目录的文件结构，可以使用find命令结合parallel：

find . -name '*.pdf' | parallel --tag -j 2 ocrmypdf '{}' '{}'

Windows系统下可使用批处理命令：

for /r %%f in (*.pdf) do ocrmypdf %%f %%f

大规模处理建议

对于数千文件的大规模处理任务，建议：

分批处理，避免系统资源耗尽
考虑使用专业咨询服务优化处理流程
监控系统资源使用情况

自动化监控方案

watcher.py监控脚本

OCRmyPDF提供了watcher.py脚本，可监控指定目录并自动处理新增PDF文件。

安装依赖：

pip3 install ocrmypdf[watcher]

运行配置示例：

env OCR_INPUT_DIRECTORY=/mnt/input-pdfs \
    OCR_OUTPUT_DIRECTORY=/mnt/output-pdfs \
    OCR_OUTPUT_DIRECTORY_YEAR_MONTH=1 \
    python3 watcher.py

关键环境变量说明：

| 变量名 | 功能描述 | |--------|----------| | OCR_INPUT_DIRECTORY | 监控的输入目录（递归） | | OCR_OUTPUT_DIRECTORY | 输出目录（不应位于输入目录下） | | OCR_ARCHIVE_DIRECTORY | 处理完成后原始文件存档目录 | | OCR_OUTPUT_DIRECTORY_YEAR_MONTH | 按年/月组织输出文件结构 | | OCR_DESKEW | 自动校正倾斜页面 | | OCR_JSON_SETTINGS | 其他OCRmyPDF参数的JSON配置 |

Docker容器部署

使用Docker容器部署监控服务：

docker run \
    --volume <输入目录>:/input \
    --volume <输出目录>:/output \
    --volume <存档目录>:/processed \
    --env OCR_OUTPUT_DIRECTORY_YEAR_MONTH=1 \
    --env OCR_ON_SUCCESS_ARCHIVE=1 \
    --env OCR_DESKEW=1 \
    --env PYTHONUNBUFFERED=1 \
    --interactive --tty --entrypoint python3 \
    jbarlow83/ocrmypdf \
    watcher.py