RAG搭建个人LLM知识库助手，很多人第一步就走错了...

原创于 2025-07-07 17:23:59 发布 · 1.5k 阅读

·

56

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #语言模型 #算法 #自然语言处理 #agi #ai

基于RAG技术搭建本地知识库问答助手，已经是相当普遍的应用方案了。前一阵我在公司实践过，用我们过往积累的、对业务重要的内部知识构建知识库，开发了一个智能问答Agent，能减少团队一部分的答疑时间。

基于RAG技术搭建本地知识库问答助手，已经是相当普遍的应用方案了。前一阵我在公司实践过，用我们过往积累的、对业务重要的内部知识构建知识库，开发了一个智能问答Agent，能减少团队一部分的答疑时间。

构建知识库时，我们将内部知识整理成了 MarkDown 格式。至于为什么用MarkDown 格式，我简单总结了几个原因。

首先，一个文件最终要分块Embedding，而 MarkDown 格式天然支持标题分级，便于按章节分块（chunking），保证分块语义的完整性，提高后续内容召回的准确率。

图片

其次，知识库的内容需要让大模型理解，而大模型对 MarkDown 这种结构化的内容理解更好。这也是用 MarkDown 编写 prompt 成为主流的原因。

对我们个人来说，工作、学习中有很多场景，需要搭建个人知识库助手。比如，阅读新论文、阅读技术文档做分享等等。

在这些场景中，我们拿到的原始文档格式大都是 PDF 格式的，比如，下面的这个。

图片

我们面临的第一个问题是，如何准确地提取这些内容。

最容易想到的方案是找个 Python 库解析，如：PyPDF2。下面是我解析的结果。

图片

明显发现有三个问题，1、所有文本堆在一起没有格式， 2、文本识别不准，多个单词连在一起， 3、图片丢了。

这样的内容，如果直接作为 RAG 知识库，准确率会非常差。

幸好，最近发现一个能准确提取PDF内容的工具——Doc2X。

图片

可以说是我用过的工具中最准确的了，还是上面那个PDF文档，来看下 Doc2X 识别的结果。

图片

左边是原始PDF文档，右边是 Doc2X 提取的 MarkDown 格式文档。有标题结构，内容准确，有配图，可以说两边一模一样。

这样的内容，你才敢放心地导出，去构建RAG知识库。

Doc2X 支持多种格式导出，包括 Markdown、LaTeX、HTML、Word 等。

图片

下面是我导出的 MarkDown 格式文件。

图片

我们平时阅读论文、技术文档，难免遇到大量的表格、数学公式，Doc2X 对这部分做了深度优化，能实现⾼精度的识别与结构化转换。

图片

甚至如果你下载了一些来路不明的文档，比如，里面都是扫描件，根本没办法直接从PDF文件中直接复制文本，Doc2X 依然可以准确提取。

图片

对于我们搞技术的来说，有这么好用的工具，能写程序自动调用才是正道，Doc2X 也提供了开放平台。

图片

有了 API 就能调用接口自动提取PDF内容，然后构建知识库，开发智能体。

不想写代码也没关系，Doc2X 接⼊了 FastGPT、CherryStudio、扣⼦等平台，可以零代码创建智能体。

在扣子上使用 Doc2x 搭建文档阅读Agent，仅仅只需1步，添加 Doc2X 插件，填入开放平台创建的 API Key 即可。

图片

图片

当然，现在很多AI大模型产品也支持上传PDF文件进行问答。但 Doc2X 的优势在于，是专业做文档提取的，准确度更高。

并且不像其他产品上传文件后，解析的结果对我们是黑盒，Doc2X 提取后结果对我们可见，我们可以对结果做干预，生成的内容更可控。

如何学习大模型？

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

😝有需要的小伙伴，可以扫描下方二v码免费领取【保证100%免费】🆓

博客等级

码龄1年

773
原创

9357
点赞

8236
收藏

3800
粉丝

关注

私信

热门文章

分类专栏

Java 378篇
IT 377篇
程序员 383篇
redis 4篇
计算机 5篇
面试 2篇

展开全部收起

上一篇：: 李飞飞最新访谈：没有空间智能，AGI就不完整

下一篇：: 量子控制也能RL上天？强化学习×弱测量×卡尔曼滤波，稳定量子平衡新范式！

最新评论

dify案例分享-基于database插件实现Text2sql的数据库查询图表工作流
kevin_tan: 你好，可以把完整的工作流都展示出来吗？有没有这个工作流的DSL文件，因为代码执行那一段不知道怎么编写
Coze智能体工作流：1分钟生成10w+爆款今日语录视频，全自动，无需剪辑
周洛尘: 还留一手啊，博主
MCP极简入门：超快速上手运行简单的MCP服务和MCP客户端
Sunburst?: 请问案例是在Windows上运行还是在AutoDL上运行
Java中Log级别和解析
北风之神c: 总结的很全面的日志使用，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。