自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(0)
  • 收藏
  • 关注

空空如也

Python批量自动化提取pdf中的嵌入式图片

这个代码实现了一个功能强大的 PDF 图像提取工具,依赖于 fitz (PyMuPDF) 和 cv2 (OpenCV) 库,专门设计用来批量处理和提取PDF文件中的图片。它能够批量处理各种各样PDF 文件(两列式、单列式、图片式)中的嵌入式图片,包括那些无法直接选中或复制的图片。由于其设计初衷是用于处理合金材料的文献,因此对材料类文献效果更好。 通过调用 OpenCV 和 PyMuPDF 库,该工具能够智能识别 PDF 中的图片,并提取出来,从而帮助轻松处理大量复杂格式的图片数据。这种批量处理的方法使我们能够高效地处理大量PDF文件,节省了大量时间和精力。 使用步骤如下: 1、准备包含PDF文件的输入文件夹和用于存放输出结果的输出文件夹。 2、在代码中设定输入文件夹(input_folder)和输出文件夹(output_folder)的路径。 3、运行代码,它将自动遍历输入文件夹中的所有PDF文件,从每个文件中并提取嵌入式图片,并保存至输出文件夹中。

2024-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除