RAGflow 是一个基于深度文档理解的开源 RAG(Retrieval-Augmented Generation)引擎,为企业提供了一套精简的 RAG 工作流程,结合大型语言模型(LLM)提供真实可信的问答能力,并由各种复杂格式数据的可靠引用作为支撑。
核心特点
• “Quality in, quality out”:基于深度文档理解,能够从各类复杂格式的非结构化数据中提取真知灼见,真正在无限上下文(token)的场景下快速完成大海捞针测试。
• 基于模板的文本切片:不仅仅是智能,更重要的是可控可解释,多种文本模板可供选择。
• 有理有据、最大程度降低幻觉(hallucination):文本切片过程可视化,支持手动调整,答案提供关键引用的快照并支持追根溯源。
• 兼容各类异构数据源:支持丰富的文件类型,包括 Word 文档、PPT、Excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等。
• 全程无忧、自动化的 RAG 工作流:流线型 RAG 协调,适用于个人和大型企业,可配置的 LLM 和嵌入模型,多种召回方式与融合重排序,直观的 API,便于与业务系统集成。
应用场景
• 企业知识库建设:企业可以利用 RAGflow 构建自己的知识库,将各种文档资料进行整理和存储,方便员工查询和使用,提高工作效率。
• 智能助手开发:结合 RAGflow 的问答能力,可以开发出智能助手,为企业和用户提供更多智能化的服务,如自动回答客户咨询、提供业务建议等。
• 数据分析与报告生成:在数据分析领域,RAGflow 可以帮助分析师快速从大量数据中提取关键信息,生成分析报告,提高数据分析的效率和准确性。
• 教育与培训:在教育领域,RAGflow 可以作为教学辅助工具,帮助教师整理教学资料,为学生提供个性化的学习指导。
• 科研与创新:科研人员可以利用 RAGflow 快速检索和分析大量的文献资料,加速科研进程,提高创新效率。
系统架构
RAGflow 的系统架构包括以下几个核心组件:
• 数据摄取与处理:支持多种格式的数据输入,由深度文档理解模块进行精细处理,智能提取和组织信息。
• 知识库管理:采用先进的索引和分块策略,实现快速查找和高效检索。
• 检索机制:运用多种召回策略和融合重排序技术,快速准确地筛选出与用户问题最相关的内容。
最新更新
• 2025-02-28:结合互联网搜索(Tavily),支持任何 LLM 的深度研究推理。
• 2025-02-05:更新了“SILICONFLOW”的模型列表,增加了对 Deepseek-R1/DeepSeek-V3 的支持。
• 2025-01-26:优化了知识图谱提取和应用,提供多种配置选项。
• 2024-12-18:升级了 DeepDoc 中的文档布局分析模型。
• 2024-12-04:在知识库中增加了对 pagerank 评分的支持。
• 2024-11-22:为 Agent 添加了更多变量。
• 2024-11-01:在解析的片段中添加了关键词提取和相关问题生成,以提高检索的准确性。
• 2024-08-22:通过 RAG 支持文本到 SQL 语句。
快速开始
1. 克隆代码仓库:
git clone https://github.com/infiniflow/ragflow.git
2. 启动服务:
cd ragflow/docker
chmod +x ./entrypoint.sh
docker compose up -d
3. 在浏览器中访问 http://YOUR_SERVER_IP 即可登录 RAGFlow。
官方资源
• GitHub 仓库:https://github.com/infiniflow/ragflow https://github.com/infiniflow/ragflow
• 官方文档:https://ragflow.io/docs/dev/ https://ragflow.io/docs/dev/
• 演示地址:https://demo.ragflow.io https://demo.ragflow.io。