- 博客(1)
- 收藏
- 关注
原创 python+ollama本地大模型批量识别PDF,总结摘要以及关键词并输出EXCEL。
这段是处理指定文件夹中的所有PDF文件,并读取PDF识别后的txt文件中的文章信息,提交给本地大模型,我这里使用的qwen2.5:14b,总体上来说,qwen2.5还是好用的,并将结果保存到EXCEL中。,如下是如何处理单个PDF,并设有异常处理,在处理PDF时存在部分乱码,可能是包含有图片格式的问题,故此设置了清洗文本,只保留了可以打印的字符,在提交给大模型进行回答时不受影响,个人没有进行未清洗测试。然而随着AI的兴起,本地大模型的部署,这些成为一种很方便的方法,接下来我将为各位介绍我所使用的方法。
2024-11-07 10:11:44
9982
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人