手把手教你用Python提取PDF中的表格

原创

已于 2024-01-12 10:19:04 修改 · 2.7w 阅读

171 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #后端

于 2022-01-31 13:00:00 首次发布

前言

pdfplumber 是一个开源的 python 工具库，它可以轻松的获取 PDF 文本内容、标题、表格、尺寸等各种信息，今天来介绍如何使用它来提取 PDF 中的表格。

安装

首先通过下面命令安装 pdfplumber 模块。

pip install pdfplumber

或是使用豆瓣镜像源安装。

pip install -i https://pypi.douban.com/simple pdfplumber

案例

这里有一份2020年中国大学生计算机设计大赛参赛作品获奖名单，文件为 PDF 格式，每页都包含表格，表格中包含为各支队伍的获奖信息，共158页。表格前两页内容如下。

下面将 PDF 中的表格提取出来，并保存到 Excel 中。

首先导入所需要的模块：

import pdfplumber
import pandas as pd

读取 PDF 文件

read_path = '2020年中国大学生计算机设计大赛参赛作品获奖名单.pdf'
pdf_2020 = pdfplumber.open(r

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序媛小本

关注关注

28
点赞
踩
171

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python编程神器：3行代码提取PDF表格数据

python入门教程学习电子书视频资料

11-20

904

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。 PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。大量的学术报告、论文、分析文章都使...

用Python代码批量提取PDF文件中的表格

Eiceblue的专栏

05-24

3910

本文演示如何使用Python提取PDF文档中的表格数据，并将其保存到文本文件或Excel文件。

4 条评论您还未登录，请先登录后发表或查看评论

Python实现PDF表格提取与数据处理实战

最新发布

weixin_30820933的博客

06-16

1138

pdfplumber是一个开源库，专门用于从PDF文件中提取信息。它由以下几个特点：表格提取：pdfplumber能够准确地提取PDF中的表格数据。文本和图像提取：除了表格之外，它还能提取文本内容以及嵌入的图像。PDF内容分析：提供一系列工具，如计算文本的位置、边距，甚至识别可选内容（如注释）。易于使用：通过简单的API，可以让开发者轻松地读取和处理PDF文档。性能稳定：具有良好的错误处理机制，稳定执行PDF文件的解析工作。

Python从PDF中提取表格

01-04

使用Python的pdfplumber模块从PDF指定的各个页面中提取对应的表格，全部存入pandas的DataFrame中。将表格中不关注的行列删除后，保存到Excel电子表格中。源码将STM32规格书中指定封装的引脚表提取到Excel中，方便不同型号芯片的引脚兼容性检查。

如何使用Python提取PDF表格数据

weixin_72959097的博客

04-14

1774

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据，但是对于如果想要直接从表格中复制数据则会非常麻烦。

Python 提取 PDF 中的表格数据

12-18

7786

PDF 中的表格数据，使用 Python 提取，使用的框架是 pdfplumber 或 camelot 。

Python新工具：用三行代码提取PDF表格数据

机器学习算法与Python学习

10-10

800

本文转自『机器之心』(almosthuman2014)PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且...

python将提取的数据导出_独家 | 手把手教你如何用Python从PDF文件中导出数据

05-24

好的，以下是用Python从PDF文件中导出数据的步骤： 1. 安装必要的Python库你需要安装以下的Python库：PyPDF2、pandas、numpy。可以通过以下命令来安装： ``` pip install PyPDF2 pandas numpy ``` 2. 打开PDF...

手把手教你如何用 Python 从 PDF 文件中导出数据

python学习者的博客

03-30

3129

有很多时候你会想用Python从PDF中提取数据，然后将其导出成其他格式。不幸的是，并没有多少Python包可以很好的执行这部分工作。在这篇贴子中，我们将探讨多个不同的Python包，并学习如何从PDF中提取某些图片。尽管在Python中没有一个完整的解决方案，你还是应该能够运用这里的技能开始上手。提取出想要的数据之后，我们还将研究如何将数据导出成其他格式。让我们从如何提取文本开始学起！使...

python提取网页表格信息_python 提取网页表格数据库数据库

weixin_39531582的博客

12-20

2263

python开源工具列表【持续更新】以下是个人在工作中整理的一些python wheel，供参考。这个列表包含与网页抓取和数据处理的Python库网络通用urllib-网络库(stdlib)。requests-网络库。grab–网络库(基于pycurl)。pycurl–网络库(绑定libcurl)。urllib3–...文章武耀文2018-04-253139浏览量初学指南| 用Pyt...

手把手叫你用python做一个ocr核酸检测报告统计表

04-21

OCR技术允许我们自动从图像中提取文本，这对于处理大量的纸质或PDF文档非常有用，比如核酸报告。首先，我们需要了解Python中的几个关键库，它们对于实现OCR功能至关重要： 1. **PIL（Python Imaging Library）**...

Python-Excalibur一个用于从PDF中提取表格数据的Web界面

08-10

Excalibur: 一个用于从PDF中提取表格数据的Web界面，基于Camelot，采用Python 3开发。Excalibur仅适用于基于文本的PDF而不适用于扫描的文档

Python-Camelot一个可以轻松地从PDF文件中提取表格的Python库

08-10

Camelot: 一个可以轻松地从PDF文件中提取表格的Python库

小技巧！三行 Python 代码提取 PDF 表格数据，快来试试！

Python宋宋的专栏

09-15

1114

不久前，有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot，能够直接将大部分表格转换为 Pandas 的 Dataframe。PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。以下为输出的结果，对于合并的单元格，Camelot 在抽取后做了空行处理，这是一个稳妥的方法。项目提供的 PDF 文件如图所示，假设用户需要提取这些文字之间的表格 2-1 中的信息。我们需要提取表格 2-1。

python 读取PDF表格

ffxyx33的博客

09-25

6117

python读取PDF表格 1.相关库函数利用python读取pdf中的表格部分，并且以EXCEL的形式保存到本地，主要利用了两个库，pdfplumber和pandas，前者用于操作PDF,后者用于操作EXCEL。先附上相关代码： import pdfplumber import pandas as pd def pdf_read(): pdf = pdfplumber.open("aaaa.pdf") #pages=input("转换表格的页码") p0=pdf.pages[3

使用Python快速读取PDF中的表单数据

nuclear2011的博客

03-20

2905

本文介绍了如何使用Python快速读取PDF文档中多种表单或者特定表单的数据。包含详细步骤介绍及代码示例。

Python自动化办公：批量提取PDF中的表格到Excel

2301_76419561的博客

10-08

2568

通过Python的ospdfplumber和openpyxl模块，我们可以轻松实现批量提取PDF中的表格数据，并将其写入Excel文件。这一自动化流程不仅提高了工作效率，还减少了人为错误。对于需要处理大量PDF文件的办公人员来说，这一技能无疑将大大节省时间和精力。

Python提取pdf中的表格数据（附实战案例）