- 博客(0)
- 收藏
- 关注
Python批量自动化提取pdf中的嵌入式图片
这个代码实现了一个功能强大的 PDF 图像提取工具,依赖于 fitz (PyMuPDF) 和 cv2 (OpenCV) 库,专门设计用来批量处理和提取PDF文件中的图片。它能够批量处理各种各样PDF 文件(两列式、单列式、图片式)中的嵌入式图片,包括那些无法直接选中或复制的图片。由于其设计初衷是用于处理合金材料的文献,因此对材料类文献效果更好。
通过调用 OpenCV 和 PyMuPDF 库,该工具能够智能识别 PDF 中的图片,并提取出来,从而帮助轻松处理大量复杂格式的图片数据。这种批量处理的方法使我们能够高效地处理大量PDF文件,节省了大量时间和精力。
使用步骤如下:
1、准备包含PDF文件的输入文件夹和用于存放输出结果的输出文件夹。
2、在代码中设定输入文件夹(input_folder)和输出文件夹(output_folder)的路径。
3、运行代码,它将自动遍历输入文件夹中的所有PDF文件,从每个文件中并提取嵌入式图片,并保存至输出文件夹中。
2024-04-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人