WTW-Dataset：野外表格检测与结构识别的开源数据集

贾耀斐

于 2025-01-08 11:14:15 发布

阅读量842

点赞数 14

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_01183/article/details/145002933

版权

WTW-Dataset：野外表格检测与结构识别的开源数据集

WTW-Dataset This is an official implementation for the WTW Dataset in "Parsing Table Structures in the Wild " on table detection and table structure recognition. 项目地址: https://gitcode.com/gh_mirrors/wt/WTW-Dataset

WTW-Dataset 是一个针对表格检测和表格结构识别任务的开源数据集，由武汉大学王文团队开发。该项目主要使用 Python 编程语言实现。

1. 项目基础介绍

WTW-Dataset 是第一个针对野外表格检测和表格结构识别任务的数据集，从照片、扫描和网页中构建，涵盖了7种具有挑战性的场景，包括：（1）倾斜表格、（2）弯曲表格、（3）遮挡或模糊表格、（4）极端宽高比表格、（5）叠加表格、（6）多色表格以及（7）不规则表格。该数据集包含了14581张图片以及相应的标注信息。

2. 核心功能

项目的核心功能是提供一张用于训练和评估表格检测与结构识别算法的野外表格数据集。数据集包含了以下几种关键信息：

图片名
表格ID
表格单元格边界框（四个顶点）
起始列/行
结束列/行

此外，项目还提供了以下功能：

将 XML 格式的标注信息转换为 JSON 或 HTML 格式。
使用 Cycle-Centernet 模型进行表格检测和结构识别（注意：模型代码不公开，但提供了在线测试链接）。

3. 项目最近更新的功能

修订了测试集的标注信息（在下载链接中提供了修订后的 test-xml-revise.zip 文件）。
更新了 Cycle-Centernet 在 WTW 测试集上的评估结果（在 demo 文件夹下的 newresult.txt 文件中）。

以上就是 WTW-Dataset 项目的基础介绍、核心功能以及最近更新的内容。这个项目为表格检测和结构识别领域的研究者提供了一个宝贵的数据集，有助于推动相关技术的发展。

WTW-Dataset This is an official implementation for the WTW Dataset in "Parsing Table Structures in the Wild " on table detection and table structure recognition. 项目地址: https://gitcode.com/gh_mirrors/wt/WTW-Dataset

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

贾耀斐 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。