本文目录:
一、RAG回顾:成就与挑战
过去几年,RAG在技术创新和应用落地方面取得了显著进展,但也暴露了其局限性。以下是主要成就与挑战的总结:
1. 技术成就
-
多模态文档解析:RAGFlow的DeepDoc模块率先实现非结构化文档的语义分块,支持PDF、PPT等复杂格式解析,开源社区(如MinerU、Docling)跟进,推动了文档智能的普及。第二代基于生成式AI的OCR模型(如Nougat、OCR 2.0)显著提升泛化能力,M2Doc通过BERT集成增强语义边界识别。
-
混合搜索崛起:BM25与向量搜索的结合成为标配,RAGFlow通过Elasticsearch实现精准查询,Infinity数据库支持三向召回(向量+稀疏向量+全文搜索)。OpenAI收购Rockset进一步验证了混合搜索的战略价值。
-
GraphRAG的突破:微软开源GraphRAG,通过知识图谱解决语义鸿沟问题,获得广泛关注。RAPTOR、SiReRAG等变体通过预聚类和实体关系优化召回率,Fast GraphRAG、LazyGraphRAG降低计算成本。
-
后期交互与VLM:基于张量的重排序(如ColBERT、ColPali)提升排序效率,视觉语言模型(VLM,如PaliGemma)支持多模态文档分析,Infinity数据库实现多向量索引。
-
代理集成:Agentic RAG(如Self RAG、Adaptive RAG)通过闭环反射功能增强复杂场景处理,LangGraph和RAGFlow支持任务分解和记忆管理,RARE引入蒙特卡洛树搜索优化推理。
2. 核心挑战
-
非结构化多模态文档效率:现有LLMOps局限于纯文本,复杂文档(如图表、公式)解析效果有限,商业潜力未完全释放。
-
召回率与命中率不足:纯向量数据库存在语义损失,模糊查询和多跳问题导致语义鸿沟。
-
框架同质化:LangChain、LlamaIndex、RAGFlow等开源框架功能重叠,差异化竞争困难,RAG逐渐成为Agent系统的子模块。
-
成本与复杂性:GraphRAG的令牌消耗高,动态图更新和多模态节点支持需进一步优化。
-
行业定制化需求:垂直领域(如医疗、金融)对隐私、合规性和领域知识建模提出更高要求。
-
搜索的根本挑战:RAG核心在于搜索能力,但模糊查询或需要多跳推理的问题会导致查询与答案之间的语义鸿沟,传统搜索方法难以应对。
二、2025年RAG的五大重点趋势
过去几年的进展和挑战,结合RAG向智能体生态演化的趋势,以下是2025年RAG的五大重点发展方向,包含技术细节、应用场景和实践建议。
1. RAG与Agent系统的深度融合
趋势背景:RAG正从独立框架转变为Agent系统的核心子模块,参与记忆管理、任务规划和多Agent协作。2025年,Agentic RAG将成为复杂场景(如医疗诊断、法律咨询)的标配。
技术细节:
-
动态记忆管理:RAG支持Agent的长期记忆库,结合向量数据库(如Chroma、Milvus)和Embedding模型(如BGE-3)实现个性化语义召回,动态更新用户交互数据。
-
任务分解优化:通过查询拆解(Query Decomposition)和LLM重构,RAG支持复杂任务分解为子查询,结合HyDE生成假设上下文提升召回率。
-
多Agent协同:RAG实现跨Agent的知识共享,利用分布式向量数据库支持实时同步,设计知识共享协议确保一致性。
以下举个例子,比如我前几天提到的项目:GraphRAG+DeepResearch架构。
应用场景:
-
智能客服:电商平台通过Agentic RAG实现订单查询、退货政策解释和促销推荐,Mem0支持用户历史偏好召回。
-
医疗诊断:诊断Agent与文献检索Agent共享RAG知识库,协同生成诊断报告。
挑战与解决方案:
-
挑战:跨Agent知识的实时性和冲突管理。
-
解决方案:采用增量更新算法和冲突检测机制,优化分布式数据库性能。
-
挑战:任务分解的复杂性。
-
解决方案:设计标准化任务拆解模板,结合LLM生成动态Prompt。
实践建议:
-
优先选择支持动态更新的向量数据库(如Milvus)。
-
开发任务分解模板库,降低复杂任务实现门槛。
-
在多Agent系统中,加入冲突检测API,确保知识一致性。
2. 多模态RAG的体系化建设
趋势背景:多模态大模型(如ColQwen、LLaVA)的快速发展推动了多模态RAG的普及。2025年,多模态RAG将支持文本、图像、视频的统一检索,覆盖电商、医疗、教育等领域。
在介绍多模态之前先介绍一下,目前成熟的多模态RAG方案: 欢迎关注阿东玩AI 阿东玩AI 阿东玩AI
多模态RAG(MRAG)是RAG技术的延伸,旨在处理文本、图像、视频等多模态数据。其核心挑战包括:
-
多模态文档解析与索引:如何提取和结构化多模态内容(如文本、图像、视频),并将其编码为向量存储。
-
多模态检索:如何高效检索与用户查询相关的多模态片段。
-
多模态生成:如何整合检索结果与大模型生成连贯响应。
-
性能评估与优化:如何衡量MRAG系统的效果并持续改进。
《A Survey of Multimodal Retrieval-Augmented Generation》
(https://arxiv.org/pdf/2504.08748)
-
提出MRAG 1.0到3.0的演进,详述核心组件与技术挑战。多模态RAG的三个版本。
MRAG发展分为三个阶段:
-
MRAG 1.0(伪MRAG):
-
与传统RAG类似,包含文档解析、检索、生成三个模块。
-
关键区别在于文档解析阶段,将多模态数据转为描述性文本(captions)存储。
-
缺点:信息损失严重,解析与检索计算开销大。
-
MRAG 2.0:
-
保留多模态数据,支持多模态检索和MLLM生成。
-
减少信息损失,支持多模态输入与原始数据处理。
-
MRAG 3.0:
-
引入文档截图,最大程度减少信息丢失。
-
输入阶段增加多模态搜索规划模块,统一视觉问答(VQA)与RAG任务,优化查询。
-
输出阶段通过多模态检索增强组合模块,将纯文本转为多模态格式。
MRAG系统包含以下核心组件:
-
文档解析与索引:
-
提取文本内容(使用OCR或格式解析技术)。
-
检测文档布局,分割为结构化元素(如标题、段落、图像)。
-
为图像、视频生成描述性caption。
-
将文本和caption编码为向量,存储于向量数据库。
-
-
多模态检索:
-
将用户查询编码为向量。
-
使用嵌入模型检索相关文档片段和caption。
-
合并重复信息,生成外部知识集。
-
-
多模态生成:
-
整合用户查询与检索结果,构造提示。
-
使用多模态大模型(MLLM)生成响应,结合参数化知识与外部信息。
-
《Retrieval Augmented Generation and Understanding in Vision》
https://arxiv.org/pdf/2503.18016
-
提供视频检索与理解的五种RAG模型方案,及三种多模态RAG流程(统一模态、共享向量空间、独立数据库)。
核心看两张图:
一个是五个不同的用于视频检索和理解流程的RAG模型一集对应的方案。
三种不同的多模态RAG(检索增强生成)流程,包括 :
(a) 将所有模态统一到单一的综合模态中;
(b) 将所有模态嵌入到一个共享的向量空间中;
(c) 为每种模态分别维护独立的数据库。
《Ask in Any Modality》
https://arxiv.org/pdf/2502.08826
-
覆盖MRAG全流程,展示查询预处理、检索策略、融合机制等技术进展。
流程从查询预处理开始,用户查询被优化后与多模态数据库一同编码到共享嵌入空间中。
检索策略,如模态中心检索、相似性搜索和重排序,增强文档选择,而融合机制通过分数融合或基于注意力的方法对齐并整合来自多种模态的数据。
增强技术,如带反馈机制的迭代检索,进一步优化了为多模态大模型(LLM)检索到的文档。
生成阶段融链式推理(Chain-of-Thought reasoning)和来源归因,以获得更好的输出结果。损失函数结合了对齐损失和生成损失,以优化检索和生成组件。
此外,应用噪声管理技术,以提高训练的稳定性和鲁棒性。
《Retrieving Multimodal Information for Augmented Generation》
https://arxiv.org/pdf/2303.10868
-
聚焦多模态信息检索的应用场景。
-
回顾了通过检索多模态知识来辅助和增强生成模型的方法,这些方法的格式涵盖了图像、代码、表格、图表以及音频等。此类方法为解决真实性、推理、可解释性和鲁棒性等重要问题提供了一种有前景的解决方案。技术细节:
-
统一向量表示:采用CLIP-ViT、BLIP-2等模型将多模态数据映射到同一向量空间,支持跨模态语义嵌入。
-
混合检索优化:结合BM25(文本)、KNN(图像/视频)和知识图谱增强跨模态召回,ColPali通过张量实现高效重排序。
-
生成一致性:设计多模态Prompt模板,确保生成结果引用源数据(如图像元数据),引入自校正机制优化答案质量。
应用场景:
-
电商搜索:用户上传商品图片,结合CLIP-ViT实现图像+文本检索,推荐相似产品。
-
医疗影像分析:基于多模态RAG,融合CT图像和病例文本生成诊断报告。
-
教育问答:学生上传课件图片,RAG结合视频帧提取生成精准回答。
挑战与解决方案:
-
挑战:多模态向量计算和存储成本高。
-
解决方案:采用模型量化(如MobileCLIP)和分布式存储(如HDFS),优化索引效率。
-
挑战:跨模态语义对齐。
-
解决方案:引入对比学习,增强模态间语义关联;结合GNN优化多模态节点表示。
实践建议:
-
从开源模型(如CLIP、BLIP)入手,快速验证多模态效果。
-
设计标准化多模态数据预处理流水线,确保数据一致性。
-
引入引文校验机制,避免模态混淆。
3. GraphRAG的精细化与动态化
趋势背景:GraphRAG通过知识图谱提升结构化召回能力,但创新空间收窄。2025年,GraphRAG将聚焦动态更新、因果推理和多模态节点优化,增强实时性和可解释性。
这里放一个经典的lightRAG的系统结构图:
后续会分享完整的GraphRAG综述及项目推荐。技术细节:
-
动态图更新:支持知识图谱的实时增删改,基于Neo4j或Infinity的增量更新算法,适配新闻、社交媒体等动态数据。
-
因果路径优化:引入贝叶斯网络或因果发现算法,提取与查询因果相关的子图,提升召回精准性。
-
多模态节点:扩展节点类型,支持图像、视频、段落等信息,结合CLIP特征向量构建多模态知识图谱。
-
可解释推理:结合思维链(CoT)和GraphRAG,生成透明的推理路径,MedReason在医疗领域表现突出。
应用场景:
-
实时问答:Graphti通过动态图更新支持新闻问答,增强Agent实时记忆。
-
企业知识管理:跨部门知识图谱支持精准检索和多跳推理。
-
医疗诊断:病例知识图谱结合因果推理,推荐治疗方案。
挑战与解决方案:
-
挑战:动态图更新的计算开销。
-
解决方案:采用图分区技术和增量更新算法,优化大规模图处理。
-
挑战:因果路径的精准性。
-
解决方案:结合GNN和因果建模,验证小规模子图效果后扩展。
实践建议:
-
选择支持动态更新的图数据库(如Neo4j、ArangoDB)。
-
优先验证因果推理在小规模场景的效果。
-
设计统一的多模态节点表示规范,降低建模复杂性。
4. 轻量化与低成本RAG方案
趋势背景:中小企业对RAG的需求聚焦低成本、易部署。2025年,轻量化RAG将成为中小企业的首选,边缘设备和低代码平台将广泛应用。
这里放一个港大开源MiniRAG突破大模型限制,轻量高效还免费:
技术细节:
-
模型压缩:优化Embedding模型(如DistilBGE)和ReRank模型(如MiniLM),结合知识蒸馏和混合精度推理降低成本。
-
本地化部署:基于ONNX的轻量化RAG框架,支持边缘设备(如POS机)运行,优化数据预加载策略。
-
低代码平台:Coze、Dify等平台进一步降低操作门槛,支持模块化插件扩展(如自定义Embedding)。
应用场景:
-
中小企业知识库:RAGFlow的拖拽式界面帮助企业快速搭建问答系统。
-
边缘设备查询:零售POS机通过轻量化RAG实现本地化商品查询。
-
教育应用:低代码RAG支持教师快速构建课程问答系统。
挑战与解决方案:
-
挑战:压缩模型性能下降。
-
解决方案:通过知识蒸馏和动态量化平衡性能与效率。
-
挑战:低代码平台定制化不足。
-
解决方案:支持插件化扩展,允许用户自定义功能。
实践建议:
-
选择轻量级向量数据库(如Faiss、Annoy)。
-
优化边缘设备的数据预加载,降低延迟。
-
开发低代码平台的教程和模板,降低学习曲线。
5. 行业定制化RAG解决方案
趋势背景:RAG需深入垂直领域,解决行业特有痛点。2025年,医疗、金融、教育等领域的定制化RAG将成为增长点。
精通 RAG:打造顶尖企业级 RAG 系统的秘籍:
技术细节:
-
医疗:基于BioBERT或PubMedBERT的Embedding模型,结合GraphRAG和MedReason优化病例分析和文献检索。
-
金融:采用LayoutLMv3或TableFormer解析研报表格,支持高精度TableQA,结合知识图谱增强多跳推理。
-
教育:多模态RAG支持教材、视频的智能问答,结合视频帧提取和文本检索实现精准召回。
应用场景:
-
医疗:医院通过GraphRAG构建病例知识图谱,支持疾病诊断和治疗推荐。
-
金融:券商利用定制化RAG实现研报表格自动化解析与问答。
-
教育:在线教育平台支持学生上传课件图片,生成智能回答。
挑战与解决方案:
-
挑战:行业数据的隐私和合规性。
-
解决方案:采用联邦学习或本地化部署,确保数据安全。
-
挑战:领域知识建模复杂性。
-
解决方案:引入领域专家协作,构建行业特定知识图谱和Embedding模型。
实践建议:
-
医疗领域优先优化生物医学Embedding模型。
-
金融领域开发专用表格解析模型。
-
教育领域设计多模态数据标注规范,降低准备成本。
三、总结与展望
2025年,RAG将彻底告别“独立明星”地位,成为智能体生态中的关键组件。其发展将围绕以下核心趋势展开:
-
智能化:通过Agentic RAG和任务分解,解锁复杂场景的推理能力。
-
多模态化:多模态RAG支持文本、图像、视频的统一检索,覆盖更多行业。
-
精细化:GraphRAG通过动态更新和因果推理提升召回精准性。
-
低成本化:轻量化RAG和低代码平台降低中小企业部署门槛。
-
行业化:定制化RAG深入垂直领域,解决特有痛点。
实践建议
-
聚焦业务痛点:深入垂直场景,设计定制化RAG方案,如医疗病例检索、金融表格解析。
-
布局多模态:从开源模型(如CLIP、BLIP)入手,快速验证多模态RAG效果。
-
优化投入产出:优先文本解析和轻量化部署,避免过度投入复杂公式解析。
-
持续创新:结合Agent、GraphRAG探索差异化方案,如可解释推理工具。
-
生态协作:贡献LangChain、RAGFlow模块,与开源社区共建生态。
四、结语
“RAG已死,RAG万岁!”RAG完成了从技术热点到生态子模块的转型,2025年将在Agent融合、多模态、行业定制化等领域迎来新机遇。通过体系化思考和实践,RAG将继续推动智能应用的落地,创造更智能、更个性化的未来。让我们携手探索,迎接RAG的新篇章!
参考文献
-
RAGFlow: https://github.com/infiniflow/ragflow
-
PaddleOCR: https://github.com/PaddlePaddle/PaddleOCR/
-
MinerU: https://github.com/opendatalab/MinerU
-
Docling: https://github.com/DS4SD/docling
-
Nougat: https://github.com/facebookresearch/nougat
-
GOT-OCR: https://github.com/Ucas-HaoranWei/GOT-OCR2.0
-
GraphRAG: https://arxiv.org/abs/2404.16130
-
ColPali: https://arxiv.org/abs/2407.01449
-
BlendedRAG: https://arxiv.org/abs/2404.07220
-
LangGraph: https://github.com/langchain-ai/langgraph/
-
Mem0: https://github.com/mem0/mem0
-
PaliGemma: https://huggingface.co/spaces/big-vision/paligemma-hf
-
Late Chunking: https://arxiv.org/abs/2409.04701
-
dsRAG: https://github.com/D-Star-AI/dsRAG/
-
Awesome-RAG 2024: https://github.com/awesome-rag/awesome-rag