pdf 转换 txt 文件读取文字 安装步骤

本文介绍了如何在Python环境下将PDF文件转换为TXT文本。首先,需要下载Python的特定版本,然后通过pip安装pdfminer3k和pyocr库。接着,只需将PDF文件与Python脚本放在同一目录下,运行包含PDF解析和转换代码的脚本,即可完成转换。脚本中利用了PDFParser、PDFDocument等模块进行解析,输出UTF-8编码的TXT文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 下载py3.60版本
2 pip install pdfminer3k
pip install pyocr

3 直接把需要转换的pdf 文件放入py程序所在目录

使用

源代码:

import pyocr
import importlib
import sys,io
import time

importlib.reload(sys)
time1 = time.time()

print(“初始时间为:”,time1)

import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘utf8’)

text_path = r’words-words.pdf’

text_path = r’photo-words.pdf’

def parse():
#’’‘解析PDF文本,并保存到TXT文件中’’’
fp = open(‘words-words.pdf’,mode

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值