通过智能分块策略、动态分块、多路召回与重排序融合、异构数据关联与溯源提升Ragflow与LangChain提升RAG的召回率

最新推荐文章于 2025-07-04 10:30:00 发布

朴拙数据交易猿

最新推荐文章于 2025-07-04 10:30:00 发布

阅读量737

点赞数 21

CC 4.0 BY-SA版权

文章标签： langchain

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45934622/article/details/147461276

如何通过Ragflow与LangChain提升大模型AI应用的召回率？

一、召回率在大模型AI应用中的定义
在大模型AI应用中，召回率（Recall）指模型从所有相关文档中正确检索到的比例。具体来说，它衡量了系统在给定查询时能否尽可能全面地覆盖所有潜在相关的文档片段。例如，若知识库中有100篇相关文档，系统检索到80篇，则召回率为80%。
在RAG（检索增强生成）场景中，高召回率意味着更少的“漏检”，但可能伴随更多不相关结果（需结合精确率平衡）。

二、LangChain中提升RAG召回率的策略

多查询生成与扩展
• 核心方法：通过大模型生成原始问题的多个变体（如同义词、不同表述），扩大检索范围。

• LangChain实现：使用 MultiQueryRetriever，自动生成3-5个查询变体并行检索。例如，用户提问“量子计算的应用”可能被扩展为“量子计算的实际案例”“量子计算机如何解决实际问题”等。

• 效果：平均提升召回率20-30%。
混合检索技术
• 策略组合：结合关键词匹配（如BM25）与语义向量检索（如Embedding），兼顾精确关键词与语义相似性。

• LangChain代码示例：
```
from langchain.retrievers import BM25Retriever, EnsembleRetriever  
ensemble_retriever = EnsembleRetriever
```

最低0.47元/天解锁文章

200万优质内容无限畅学

朴拙数据交易猿

博客等级

码龄6年

205
原创

1887
点赞

2289
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Ragflow、Dify、FastGPT、COZE核心差异对比与Ragflow的深度文档理解能力和全流程优化设计

下一篇：: 基于LangChain的RAG召回率增强技术实现:智能分块策略实现、多路召回与重排序实现、异构数据溯源与关联实现

最新评论

免费文生成图（Text-to-Image）API —— StableDiffusionAPI.com、Hugging Face Inference API、Replicat
wrzs: 免费的质量感觉不咋地啊
scrapy设置日志文件
北风之神c: 总结的很全面的scrapy爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html 夫天下爬虫，当顺天命。Scrapy十败如山崩，Funboost十胜如日升。
gevent 高并发、 RabbitMQ 消息队列、Celery 分布式的案例和说明
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。通过 funboost web manager 全方位可视化管理和查看你的函数运行情况，无需看文件日志。 https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html pip install funboost
阿里千问Qwen3技术解析与部署指南：混合推理架构突破性优势与对DeepSeek R1的全面超越
m0_98292574: deepseek r1也是moe架构
LangChain实现PDF中图表文本多模态数据向量化及RAG应用实战指南
weixin_46301104: 大佬，怎么github仓库不可见了

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。