RAG的工作流程_rag模型业务流程-CSDN博客

RAG 是 “Retrieval-Augmented Generation” 的缩写，中文可以翻译为“检索增强生成”。它是一种结合了信息检索和自然语言生成的技术框架，名称的含义为：

检索：从知识库（数据库或内存）访问和检索信息。
增强：通过附加信息或上下文来增强或丰富文本生成过程。
生成：创造或生成文本的过程。

RAG可以使用从矢量数据库中检索到的信息来确保响应是基于现实世界的知识和背景，从而降低出现幻觉的可能性。还可以提升生成内容的可追溯性，使得模型的响应更加准确、可靠且与上下文有关。同时确保无需重复训练LLM，使得模型的响应更加实时。

RAG的工作流程

1.文本分块

将外部文档拆分成文本块，然后将文本块嵌入并存储在矢量数据库中。

文本分块的作用是避免检索效率下降、语义理解受限、计算资源浪费、生成质量下降、加剧语义歧义等，否则对于检索相关上下文没有任何实际作用。

2.生成嵌入

分块之后，使用嵌入模型来嵌入块，即计算向量的过程。

Transformer之前，使用的是词嵌入模型，计算效率高但语义理解能力有限；Transformer之后使用的是上下文嵌入模型，语义理解能力强但计算成本较高。

3.将嵌入存储到向量数据库中

将这些嵌入向量存储到向量数据库中，矢量数据库将原始内容与嵌入向量一起存储。这样，矢量数据库充当了RAG应用程序的内存，将所有附加的知识存储到矢量数据库中，通过这些知识，可以回答用户的问题。

4.用户输入查询

用户输入一个查询，即一个代表正在寻找的目标信息的字符串。

5.嵌入查询

使用外部知识构建文本块时使用的相同嵌入模型，将此查询转换为向量。

6.检索相似块

将向量化的查询与矢量数据库中现有的矢量进行比较，以找到最相似的信息。

矢量数据库使用近似最近邻搜索，返回前k个最相似的文本块，这个就是RAG中经常会用的top_k参数。

预计这些检索到的文档包含与查询相关的信息，为最终的响应生成提供基础。

7.文本块重排序

检索后，选中的文本块需要进一步细化，确保优先展示相关性最高的文本，这个过程叫重排序。这个步骤中，通常会用到Reranker模型（通常是交叉编码器）评估查询检索到的文本块的初始列表，计算每个文本块的相关性得分。

此过程重新排列文本块，以便优先使用相关性最高的块以进行响应。并非每个 RAG 应用程序都实现这一步骤，只是依赖于在步骤 6 中获得矢量数据库中检索相关上下文相似度分数。

8.生成最终响应

将用户的原始查询与提示模板中检索到的块相结合，以生成综合所选文档信息的响应。

LLM 利用块提供的上下文来生成连贯且上下文相关的答案，直接解决用户的查询。

RAG的局限性

1.问题在语义上与答案并不相似。

即检索到的文档可能与问题并不相关，可能不相关的文档会比包含答案的文档得到更高的余弦相似度。

一种解决方案是基于LLM生成一个假设答案，然后使用问题和假设答案的嵌入向量来查询矢量数据库。

语义相似性可能会被淡化

简单说，包含重要信息的长文本会比包含不重要信息的的短文本的相似性更低，导致搜索会返回不相关的文档。

解决方案：对文本进行分块。文本分块很重要，尽量使每个文本块只包含几个段落信息，确保每个文本的特征都能更加独特。

3.不能问需要汇总的问题

提出需要在整个数据库中聚合数据的问题，答案很可能是错误的。如果正确的信息只存在于一个或几个文档中，相似性搜索可能会找到它。但是，如果需要扫描所有文档才能找到答案，相似性搜索就无法找到答案。

重排序时文本块的顺序

基于相似性搜索从数据库中检索文档时，可能倾向于使用相似性度量对文档进行排序；然而，LLM 并不像我们一样感知顺序。我们可能会更多地考虑列表中的前几个文档，但它们往往会忽略中间的文档。

解决方案：只需要重新排序文档，将最相关的文档交替放在列表的顶部和底部，以确保最不相关的文档位于中间：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述