百度表格识别——原理解读

一. 算法框架

表格识别技术主要使用基于注意力机制的图片描述模型 RARE,整体流程如下图所示,对于其中的表格区域进行表格识别处理。
在这里插入图片描述
表格识别的难点主要在于表格结构的提取,以及将表格信息与 OCR 信息融合。整体流程可以分为上下两部分,其中上半部分(黑色支路)是普通的 OCR 过程,通过(1)文本检测模块对表格图片进行单行文字检测,获得坐标,然后通过(2)文本识别模块识别模型得到文字结果。
而在下半部分的在蓝色支路中,表格图片首先经过(3)表格结构预测模块,获得每个 Excel 单元格的四点坐标与表格结构信息。结合黑色支路文本检测获得的单行文字文本框 4 点坐标,共同输入(4)Cell 坐标聚合模块,再通过(5)Cell 文本聚合模块,将属于同一单元格的文本拼接在一起。最后结合表格结构信息,通过(6)Excel 导出模块获得 Excel 形式的表格数据。
下面分别针每个模块分别展开介绍。

二. 文本检测模块和文本识别模块

主要使用 PP-OCR 提供的检测和识别算法。

三. 表格结构预测模块

主要使用基于 Attention 的图片描述模型 RARE,RARE 模型可以实现:输入一张图片,通过带有注意力机制的网络输出一段文字,描述图片的内容,而针对于表格图片的图片描述网络,输入一张经过版面分析的表格图片,输出的是一串 HTML 字符(如下图所示)。表格的结构通过 HTML 的结构标记表示,其中的内容即为表格文本中的内容。通过进一步的 HTML 解析,可以获得每个文本的单元格四点坐标和表格结构信息。
在这里插入图片描述

四. Cell 坐标聚合模块

主要用来解决如何将跨行单元格的文本重新拼接在一个单元格内的问题。它通过计算由文本检测算法获得的文本框坐标(红色框)与表格结构预测模块得到的 Cell 坐标(蓝色框)之间的 IOU 和顶点距离来进行单行到多行的聚合。使用 IOU 判断哪些红色框同属于一个蓝色框,使用顶点距离和 IOU 判断红色框的排列顺序。
在这里插入图片描述

五. Cell 文本聚合模块

根据已有的红色文本框顺序,按照从上到下从左到右顺序利用(4)Cell 坐标聚合模块的结果将(2)文本识别结果和进行拼接,这样对于多行文本的单元格内容即可拼接成一个字符串。

六. Excel 导出模块

将(3)表格结构预测结果 html 结果与(5)Cell 文本聚合模块文本结果结合,最终导出为 Excel 输出。

论文地址:https://arxiv.org/pdf/1603.03915v1.pdf (RARE论文)

我们的表格识别技术解决方案
欢迎技术交流!!!
在这里插入图片描述

### 表格识别技术概述 表格识别是一种通过光学字符识别OCR, Optical Character Recognition)技术来解析和提取表格结构及其内容的过程。这项技术广泛应用于财务报表分析、医疗记录管理以及各类文档自动化处理等领域[^1]。 #### 技术组成 表格识别通常由以下几个核心部分构成: - **表格模板编辑器**:允许用户自定义识别模板,从而提高特定场景下的识别效率[^1]。 - **图像预处理模块**:这一环节负责优化输入图片的质量,具体功能包括但不限于自动去除黑边、纠正倾斜角度、消除噪声干扰等。高质量的预处理可以显著提升后续识别阶段的成功率[^1]。 - **表格自动分类系统**:该组件能够依据表单样式或者业务逻辑对不同类型的表格进行区分并归类存档,减少人工干预需求。 - **字符识别引擎**:作为整个流程的核心所在,此模块专注于从经过初步清理后的图像中读取文字信息,并将其转化为计算机可理解的形式。现代引擎往往支持多种语言及特殊符号解读[^1]。 - **校正工具**:提供给最终用户的辅助手段用于验证机器输出结果准确性,比如纵向(集字)校对器与横向校对器可以帮助发现潜在错误以便及时修正[^1]。 ### 推荐使用的表格识别工具 对于寻找高效便捷解决方案的人来说,“翻译相机”是一个不错的选择。尽管它的名字暗示主要用途在于跨文化交流方面,但实际上它也具备强大的表格捕捉能力。只需简单拍摄目标文件的照片即可启动内置算法完成转化工作——把复杂难懂的手写体或是打印版资料瞬间变成易于修改保存的标准Excel电子表格形式。而且由于其界面友好度极高加上完全无需付费的特点使得这款应用特别受到移动办公人士青睐[^2]。 另外还有其他一些知名选项可供考虑: - Tesseract OCR Library (开源项目): 提供灵活定制可能性的同时保持良好兼容性; - ABBYY FineReader : 出名于超高精度表现特别是在面对老旧纸质材料时尤为突出; - Adobe Acrobat Pro DC : 集成了PDF编辑在内的多功能套件之一. 每种产品都有各自的优势领域,在实际选型过程中应综合考量预算范围、预期效果等因素后再做决定。 ```python import pytesseract from PIL import Image def recognize_table(image_path): img = Image.open(image_path) text = pytesseract.image_to_string(img) return text if __name__ == "__main__": result = recognize_table('path/to/your/table_image.png') print(result) ``` 以上代码片段展示了如何基于Python调用Tesseract库执行基本的文字提取任务。注意这只是一个非常基础的例子,真实世界的应用可能还需要额外加入更多高级特性如布局分析等功能才能达到理想的效果。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值