pdf-craft：将PDF文件转换为新格式的一体化工具

最新推荐文章于 2025-04-16 08:29:13 发布

丁群曦Mildred

最新推荐文章于 2025-04-16 08:29:13 发布

阅读量527

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00920/article/details/146558546

pdf-craft：将PDF文件转换为新格式的一体化工具

pdf-craft PDF craft can convert PDF files into various other formats. This project will focus on processing PDF files of scanned books. The project has just started. 项目地址: https://gitcode.com/gh_mirrors/pd/pdf-craft

在数字化时代，PDF文件因其跨平台兼容性和良好的文档格式保持性而被广泛使用。然而，PDF文件的编辑和格式转换往往需要专业的工具支持。今天，我要为大家介绍一个开源项目——pdf-craft，它能够帮助你将PDF文件转换成Markdown或EPUB格式，大大提高了文档处理的灵活性。

项目介绍

pdf-craft是一个能够处理PDF文件并将其转换为其他格式的工具，尤其专注于处理扫描书籍的PDF文件。该项目使用了一系列本地可执行的AI模型，包括DocLayout-YOLO、OnnxOCR和layoutreader，来提取文本、识别布局，并最终生成结构化的输出文件。

项目技术分析

pdf-craft的核心在于它集成了多种深度学习模型，用于处理PDF文件中的文本和图像。其中，DocLayout-YOLO用于分析文档布局，OnnxOCR用于文本识别，而layoutreader用于确定阅读顺序。这些模型的集成使得pdf-craft在本地环境下即可实现高效的格式转换。

技术应用场景

在实际应用中，pdf-craft可以用于以下几种场景：

学术论文整理：将学术论文的PDF文件转换为Markdown格式，便于在平台上分享和讨论。
电子书制作：将扫描的书籍PDF转换为EPUB格式，便于在电子书阅读器上阅读。
内容提取：从PDF文件中提取文本内容，用于进一步的内容分析和处理。

项目特点

pdf-craft的特点如下：

本地化处理：所有处理均在本地进行，不需要联网，保护了用户隐私。
多格式支持：支持将PDF转换为Markdown和EPUB两种流行格式。
模块化设计：项目设计模块化，便于扩展和维护。
易于使用：通过简单的Python接口即可实现复杂的格式转换。

以下是详细的项目特点说明：

转换PDF至Markdown

pdf-craft可以将PDF文件转换为Markdown格式，这对于需要在Web平台上发布的文档来说非常方便。在转换过程中，所有的文本提取和格式化都在本地进行，确保了处理的效率和安全性。

from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
    device="cpu",
    model_dir_path="/path/to/model/dir/path",
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
    for block in extractor.extract(pdf="/path/to/pdf/file"):
        md.write(block)

转换结果如图所示，左侧为原始PDF页面，右侧为生成的Markdown文档。

PDF转换为Markdown

转换PDF至EPUB

对于超过100页的书籍，pdf-craft提供了将PDF转换为EPUB的功能。这个过程中，除了使用OCR进行文本识别，还会通过LLM（大型语言模型）来构建书籍结构，生成带有目录和章节的EPUB文件。

from pdf_craft import PDFPageExtractor, LLM, analyse, generate_epub_file

extractor = PDFPageExtractor(
    device="cpu",
    model_dir_path="/path/to/model/dir/path",
)
llm = LLM(
    key="sk-XXXXX",
    url="https://api.deepseek.com",
    model="deepseek-chat",
    token_encoding="o200k_base",
)
analyse(
    llm=llm,
    pdf_page_extractor=extractor,
    pdf_path="/path/to/pdf/file",
    analysing_dir_path="/path/to/analysing/dir",
    output_dir_path="/path/to/output/files",
)
generate_epub_file(
    from_dir_path=output_dir_path,
    epub_file_path="/path/to/output/epub",
)

转换结果示例如下，包括EPUB文件的结构和内容展示。

PDF转换为EPUB EPUB目录 EPUB引用