高级RAG：揭秘PDF解析

lichunericli

已于 2024-10-27 11:18:38 修改

阅读量3.2k

点赞数 15

CC 4.0 BY-SA版权

文章标签：人工智能深度学习 pdf

于 2024-02-24 18:16:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichunericli/article/details/136274446

本文探讨了解析PDF文档的挑战，包括基于规则、深度学习和多模态大模型的方法。深度学习模型能准确识别布局，但处理耗时；多模态模型在提取关键信息方面表现优异。提出了解决双列PDF和提取多级标题的算法，强调了深度学习和多模态方法在解析非结构化数据中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址：advanced-rag-02-unveiling-pdf-parsing

2024 年 2 月 3 日

附加内容：揭秘PDF解析：如何从科学pdf论文中提取公式

对于RAG，从文档中提取信息是一个不可避免的场景。确保从源头提取内容的有效性对于提高最终输出的质量至关重要。重要的是不要低估这个过程。在实现RAG时，解析过程中的信息提取不佳可能导致对PDF文件中包含的信息的理解和利用受到限制。

Parsing过程在RAG中的位置如图1所示:

图1：通过过程在RAG中的位置(红框)。

在实际工作中，非结构化数据要比结构化数据丰富得多。如果这些海量的数据不能被解析，它们的巨大价值就无法实现。在非结构化数据中，PDF文档占多数。有效地处理PDF文档还可以极大地帮助管理其他类型的非结构化文档

本文主要介绍解析PDF文件的方法。它提供了有效解析PDF文档和提取尽可能多的有用信息的算法和建议。

解析PDF的挑战

PDF文档是非结构化文档的代表，但是，从PDF文档中提取信息是一个具有挑战性的过程。

与其说PDF是一种数据格式，不如将其描述为打印指令的集合更为准确。PDF文件由一系列指令组成，这些指令指示PDF阅读器或打印机在屏幕或纸张上显示符号的位置和方式。这与HTML和docx等文件格式形成对比，后者使用<p>、<w:p>、<table>和 <w:tbl>>来组织不同的逻辑结构，如图2所示:

图2：Html与PDF。

解析PDF文档的挑战在于准确地提取整个页面的布局，并将内容(包括表格、标题、段落和图像)翻译成文档的文本表示形式。该过程涉及处理文本提取、图像识别和表中行-列关系的混淆中的不准确性。

如何解析PDF文档

基于规则的方法：根据文件的组织特征确定每个部分的风格和内容。然而，这种方法不是很通用，因为pdf有许多类型和布局，因此不可能用预定义的规则覆盖它们。
基于深度学习模型的方法：如目前流行的结合物体检测和OCR模型的解决方案。
基于多模态大模型传递复杂结构或提取pdf中的关键信息。

基于规则的方法

最具代表性的工具之一是pypdf，它是一种广泛使用的基于规则的解析器。它是Langchain和LlamaIndex中解析PDF文件的标准方法。

下面是尝试使用pypdf解析“（Attention Is All You Need）”论文的第6页。原始页面如图3所示。

图3:“Attention Is All You Need”论文的原始第6页。

代码如下:

最低0.47元/天解锁文章

博客等级

码龄9年

417
原创

1万+
点赞

9870
收藏

6932
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 使用RAGAs + LlamaIndex进行RAG评估

下一篇：: 文本嵌入演变、可视化和应用的综合指南

最新评论

Mamba和状态空间模型(SSM)的视觉指南：替代 Transformers 的语言建模方法
a.南曦: 能请问一下，可不可以共享一下第一张图片的高清图片呀
记一次港交所面试
liulicsu: 是纯英文面试吗
拆解 Transformer 的训练过程
tjuwzan: 最近在看Transformer的知识，的确有些地方有点没搞明白，想先请教几个问题： 1. 本篇主要讲Transformer的训练环境，图上模型最右侧，也就是Decoder的下面，是Output Embedding, 最上面是Output，他们之间有关系吗？ 2. 训练，如果是传统的机器学习或者深度学习，如果是Supervised Learning的话，应该有输入，ground truth，以及loss function，但Transformer很少有人提这个，那么Transformer的学习过程是什么？Loss Function是什么？ 3. 还是训练问题，普通深度学习模型学习的大概是W and B，Transformer的学习是Wq, Wk, Wv吗？是如何学习的呢？尤其在第7节里描述：例如，对于计算 Query 矩阵，权重矩阵的行数必须与转置矩阵的列数相同，而权重矩阵的列数可以任意；例如，我们假设权重矩阵有 4 列。权重矩阵中的值介于 0 和 1 之间，随机初始化，当 Transformer 开始学习语料的含义时，这些值会更新。文中提到的三句话，是不是语料？咱们的例子中是不是就是用这三句话作为训练例子呢？ 4. 依然是文章中描述的，把when you play the game of thrones, you win or you die. 这句话有两个部分，前面部分作为输入，后面部分作为输出，那么第一句，I drink and I know things，这里面只有一句，怎么分输入和输出呢？ 5. 掩码的作用没太理解，可否解释一下呢？很多都说是为了让模型只参考前面，而不看后面，这句话还是没有真正理解。程序员出身，一直是按照程序员思维想弄清楚每个细节，但是NLP基础有点薄弱，理解一些思想有点难度。多谢解答
Java内存模型（JMM）与Volatile关键字底层原理
Yunwushenyanying: 讲的太全面了！非常有帮助
记录些MySQL题集（4）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619168846。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。