DocLayout-YOLO:文档布局分析的新突破

摘要

DocLayout-YOLO是基于YOLO-v10的文档布局分析工具,通过多样化的合成数据和全局到局部的自适应感知增强文档布局分析,提升了处理速度和准确性。它能够对多样性文档进行实时鲁棒的检测。

新闻 🚀🚀🚀

  • 2024.10.25 🎉🎉 基于Mesh-candidate Bestfit的数据合成代码开源,可以合成类型多样、真实感强的高质量布局检测数据集。
  • 2024.10.23 🎉🎉 DocSynth300K数据集现在已经上线🤗Huggingface,大幅提升下游微调性能。
  • 2024.10.21 🎉🎉 在线演示上线🤗Huggingface。
  • 2024.10.18 🎉🎉 DocLayout-YOLO接入文档内容提取工具包PDF-Extract-Kit
  • 2024.10.16 🎉🎉 论文上线ArXiv。

快速使用

在线演示

在线演示目前已经上线。对于本地开发部署,参考以下步骤:

环境配置

bash

conda create -n doclayout_yolo python=3.10
conda activate doclayout_yolo
pip install -e .

如果只想使用DocLayout-YOLO的推理功能,直接通过pip进行安装:

bash

pip install doclayout-yolo

模型推理

脚本推理

通过以下命令运行推理脚本demo.py来进行推理:

bash

python demo.py --model path/to/model --image-path path/to/image
SDK推理

直接通过SDK进行模型推理:

python

import cv2
from doclayout_yolo import YOLOv10

# Load the pre-trained model
model = YOLOv10("path/to/provided/model")

# Perform prediction
det_res = model.predict(
    "path/to/image",   # Image to predict
    imgsz=1024,        # Prediction image size
    conf=0.2,          # Confidence threshold
    device="cuda:0"    # Device to use (e.g., 'cuda:0' or 'cpu')
)

# Annotate and save the result
annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20)
cv2.imwrite("result.jpg", annotated_frame)

请使用在DocStructBench上微调的模型来进行推理,适用于实际场景中多种类型文档。模型下载地址在链接,示例图像路径为assets/example。

注意事项

  • 对于PDF或者文档内容提取,请参考PDF-Extract-Kit和MinerU。
  • 感谢NielsRogge,DocLayout-YOLO现在支持直接从🤗Huggingface进行调用,加载模型示例如下:

    python

    filepath = hf_hub_download(repo_id="juliozhao/DocLayout-YOLO-DocStructBench", filename="doclayout_yolo_docstructbench_imgsz1024.pt")
    model = YOLOv10(filepath)
    或者直接通过from_pretrained进行加载:

    python

    model = YOLOv10.from_pretrained("juliozhao/DocLayout-YOLO-DocStructBench")
  • 感谢luciaganlulu,DocLayout-YOLO可以进行batch推理。具体来说,在model.predict的demo.py函数中传入图像路径的列表,而不是单张图像。

DocSynth300K数据集

数据下载

使用以下指令下载数据集(约113G):

python

from huggingface_hub import snapshot_download
# Download DocSynth300K
snapshot_download(repo_id="juliozhao/DocSynth300K", local_dir="./docsynth300k-hf", repo_type="dataset")
# If the download was disrupted and the file is not complete, you can resume the download
snapshot_download(repo_id="juliozhao/DocSynth300K", local_dir="./docsynth300k-hf", repo_type="dataset", resume_download=True)

数据准备 & 预训练

如果想要进行DocSynth300K预训练,首先使用format_docsynth300k.py将原始数据集的.parquet格式转换成YOLO格式。格式转换后的数据存储在./layout_data/docsynth300k。

python

python format_docsynth300k.py

使用此处命令来进行DocSynth300K预训练。默认使用8张GPU进行训练。为了达到最好的性能,可以通过调整预训练超参数例如imgsz以及lr,根据下游微调数据集的分布或者训练设置来调整。

公开文档版面分析(DLA)数据集训练验证

数据准备

指定数据根目录,找到ultralytics配置文件(对于Linux用户配置文件在$HOME/.config/Ultralytics/settings.yaml),将datasets_dir改成项目根目录。

下载整理好的YOLO格式D4LA以及DocLayNet数据,放置在路径./layout_data并且解压缩。

模型训练验证

模型训练使用8张GPU,全局batch size大小为64(8张图片每个GPU)。其他详细的配置、命令、以及模型权重如下:

数据集模型是否DocSynth300K预训练?图像尺寸学习率训练验证AP50mAP模型权重
D4LADocLayout-YOLO16000.04命令命令81.769.8权重
D4LADocLayout-YOLO16000.04命令命令82.470.3权重
DocLayNetDocLayout-YOLO11200.02命令命令93.077.7权重
DocLayNetDocLayout-YOLO11200.02命令命令93.479.7权重

使用DocSynth300K预训练过的预训练模型可以从这里进行下载。验证时,将命令中的checkpoint.pt改成需要验证的模型。

### YOLO与PDF文档处理工具及教程 YOLO(You Only Look Once)是一种广泛使用的目标检测算法,因其高效性和准确性在计算机视觉领域广受欢迎。对于需要将YOLO应用于PDF文档处理的场景,可以结合多种工具和技术实现目标检测、布局分析和内容提取。 #### 1. **YOLO在PDF文档处理中的应用** YOLO通常用于图像中的目标检测,但通过适当的预处理步骤,也可以将其应用于PDF文档的内容提取和布局分析。具体来说,可以通过以下流程: - **PDF转图像**:首先将PDF文件转换为图像格式(如PNG或JPEG),以便YOLO模型能够处理。 - **对象检测**:使用训练好的YOLO模型对图像进行目标检测,识别出表格、图表、文本段落等元素。 - **后处理**:根据检测结果生成边界框,并将其映射回原始PDF的坐标系统中,从而实现精确的内容定位[^5]。 #### 2. **推荐的PDF文档处理工具** ##### **PDFMathTranslate** PDFMathTranslate 是一款开源的 PDF 文档翻译工具,支持科技论文等 PDF 文件的翻译,保留原文排版,包括公式和图表。它不仅适用于翻译任务,还可以作为PDF内容分析的一部分,帮助理解文档结构。该工具支持双语对照,保持原有目录结构,并兼容多种翻译服务,如 Google、DeepL、Ollama 和 OpenAI 等。可通过命令行工具进行操作,实现文档的快速翻译和双语对照查看。 尽管其主要功能是翻译,但在某些情况下,它可以辅助解析PDF中的复杂内容,尤其是包含大量数学公式的文档[^2]。 ##### **DocLayout-YOLO** DocLayout-YOLO 是一种专门针对文档布局分析的改进型 YOLO 模型。它基于 YOLO 架构进行了优化,特别适合处理实际场景中的多种类型文档。该模型可以在 DocStructBench 数据集上微调,提供更准确的布局识别能力,例如区分标题、正文、表格、图片等不同类型的页面元素。 要使用 DocLayout-YOLO,可以从指定链接下载预训练模型,并参考示例图像路径 `assets/example` 进行推理。此外,该模型还支持直接从 Hugging Face 加载,简化了集成到现有工作流的过程。对于希望利用 YOLO 技术进行 PDF 文档布局分析的用户而言,这是一个非常有价值的资源[^3]。 ##### **PDF-Extract-Kit** PDF-Extract-Kit 是一个专注于 PDF 内容提取的工具包,尤其适用于从复杂的 PDF 文档中抽取文本、表格和图像。它可以作为 DocLayout-YOLO 的补充工具,在完成布局分析后进一步提取所需信息。该工具支持多语言环境,并且具有良好的可扩展性,适合企业级文档自动化处理需求。 ##### **labelme 转 YOLO 工具** 如果需要为 YOLO 训练自定义数据集,labelme 转 YOLO 工具可以帮助将 labelme 标注的 JSON 文件转换为 YOLO 所需的 TXT 格式。此工具支持多种 YOLO 版本(如 YOLOv3 至 YOLOv8),并且可以在 Windows 上轻松运行。这对于构建专门针对 PDF 文档内容的目标检测模型非常有用。 #### 3. **部署与使用建议** - **本地部署**:大多数 YOLO 相关工具都支持本地部署,确保数据隐私的同时也能提高处理速度。例如,可以使用 Docker 容器化部署 PDFMathTranslate 或 DocLayout-YOLO,以简化安装和配置过程。 - **云服务集成**:如果希望减少计算资源的消耗,可以选择将部分任务(如翻译或图像处理)集成到云端服务中。例如,结合 AWS Lambda 或 Azure Functions 实现无服务器架构下的 PDF 处理流水线。 - **自动化脚本**:为了提升效率,可以编写 Python 脚本来自动化整个 PDF 处理流程,包括 PDF 到图像的转换、YOLO 目标检测、结果解析以及最终的报告生成。 #### 4. **示例代码** 以下是一个简单的 Python 示例,展示如何使用 OpenCV 和 PyMuPDF (fitz) 将 PDF 页面转换为图像,并准备用于 YOLO 处理: ```python import fitz # PyMuPDF import cv2 import numpy as np def pdf_page_to_image(pdf_path, page_number, dpi=300): """ 将指定页码的 PDF 页面转换为图像。 :param pdf_path: PDF 文件路径 :param page_number: 页面编号(从 0 开始) :param dpi: 图像分辨率 :return: BGR 格式的 NumPy 数组表示的图像 """ doc = fitz.open(pdf_path) page = doc.load_page(page_number) mat = fitz.Matrix(dpi / 72, dpi / 72) # 设置缩放矩阵 pix = page.get_pixmap(matrix=mat) img = np.frombuffer(pix.samples, dtype=np.uint8).reshape(pix.h, pix.w, -1) return cv2.cvtColor(img, cv2.COLOR_RGB2BGR) # 示例用法 pdf_path = "example.pdf" image = pdf_page_to_image(pdf_path, 0) cv2.imwrite("page_0.png", image) ``` 此代码片段展示了如何将 PDF 页面转换为高质量图像,进而输入至 YOLO 模型进行目标检测。结合其他工具(如 labelme 转换器或 DocLayout-YOLO),可以构建完整的 PDF 文档处理解决方案。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农工具百宝箱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值