月野难浔丶-CSDN博客

原创 python+ollama本地大模型批量识别PDF，总结摘要以及关键词并输出EXCEL。

这段是处理指定文件夹中的所有PDF文件，并读取PDF识别后的txt文件中的文章信息，提交给本地大模型，我这里使用的qwen2.5：14b，总体上来说，qwen2.5还是好用的，并将结果保存到EXCEL中。，如下是如何处理单个PDF，并设有异常处理，在处理PDF时存在部分乱码，可能是包含有图片格式的问题，故此设置了清洗文本，只保留了可以打印的字符，在提交给大模型进行回答时不受影响，个人没有进行未清洗测试。然而随着AI的兴起，本地大模型的部署，这些成为一种很方便的方法，接下来我将为各位介绍我所使用的方法。

2024-11-07 10:11:44 9982 9

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人