厌世小陌北-CSDN博客

排序：: 按最后发布时间; 按访问量; RSS订阅

空空如也

Python批量自动化提取pdf中的嵌入式图片

这个代码实现了一个功能强大的 PDF 图像提取工具，依赖于 fitz (PyMuPDF) 和 cv2 (OpenCV) 库，专门设计用来批量处理和提取PDF文件中的图片。它能够批量处理各种各样PDF 文件（两列式、单列式、图片式）中的嵌入式图片，包括那些无法直接选中或复制的图片。由于其设计初衷是用于处理合金材料的文献，因此对材料类文献效果更好。通过调用 OpenCV 和 PyMuPDF 库，该工具能够智能识别 PDF 中的图片，并提取出来，从而帮助轻松处理大量复杂格式的图片数据。这种批量处理的方法使我们能够高效地处理大量PDF文件，节省了大量时间和精力。使用步骤如下： 1、准备包含PDF文件的输入文件夹和用于存放输出结果的输出文件夹。 2、在代码中设定输入文件夹（input_folder）和输出文件夹（output_folder）的路径。 3、运行代码，它将自动遍历输入文件夹中的所有PDF文件，从每个文件中并提取嵌入式图片，并保存至输出文件夹中。

2024-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人