实现Word文本和Pdf表格数据提取并整合到同一个Excel下的多sheet中
在实际工作中,经常需要将Word文本和PDF表格中的数据提取出来,并将其整合到一个Excel文件里,以方便数据的处理和分析。本文将介绍如何使用Python实现这一任务。
- Python读取Word文本
Python中可以使用python-docx库方便地读取Word文档,该库可以返回Word文档中的所有段落和表格。接下来的代码演示了如何使用python-docx库读取Word文档,并将其中的所有表格写入Excel文件的不同sheet中。
import openpyxl
from docx import Document
# 新建Excel文件
wb = openpyxl.Workbook()
ws =