RAG 每日一技（十二）：多路并进，融会贯通！聊聊Map-Reduce RAG策略

原创于 2025-08-05 09:32:26 发布 · 707 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #算法 #后端 #机器学习 #神经网络 #深度学习

RAG 每日一技专栏收录该内容

12 篇文章

订阅专栏

前情回顾

在上一篇文章中，我们学习了Refine策略，它像一个严谨的学者，逐一阅读文档，不断迭代和完善自己的答案。这种方法生成的答案质量很高，但它的串行LLM调用机制，导致其延迟非常高，在很多实时场景下难以应用。

这就引出了一个核心问题：如果一位学者读10份资料很慢，我们能不能请10位学者同时开工，每人读1份，然后他们分别提交一份报告，最后由一位主编将这10份报告融合成一份最终的报告呢？

这，就是分而治之（Divide and Conquer）的思想，也是我们今天要介绍的Map-Reduce RAG策略的核心。

什么是Map-Reduce策略？

Map-Reduce策略是一种并行处理多个文档的RAG工作流。它将复杂的任务分解为两个主要阶段：

Map（映射）阶段：
- 目标：并行处理，各自为战。
- 过程：对于检索到的每一个文档块（Chunk），都独立地、并行地调用一次LLM。这个LLM的任务是根据当前这一个文档块，提取关键信息或回答用户的问题。
- 产出：一系列“中间答案”或“摘要”。
Reduce（规约）阶段：
- 目标：汇总信息，融会贯通。
- 过程：将Map阶段产生的所有“中间答案”合并在一起，作为新的上下文，再调用一次LLM。这个LLM的任务是将这些零散的答案，整合成一个最终的、连贯的、全面的答案。
- 产出：最终的答案。

核心：Map与Reduce的专属Prompt

与Refine策略类似，Map-Reduce也需要两种不同的Prompt来指导不同阶段的任务。

1. 映射模板 (Map Prompt)
这个模板的目标是让LLM聚焦于单个文档块，并从中提取与问题最相关的信息。

MAP_PROMPT_TEMPLATE = """
你是一个信息提取助手。
请根据下面提供的“上下文”，简要地回答用户的“问题”。
只允许使用“上下文”中的信息，如果“上下文”与“问题”无关，请回复“本段无相关信息。”。
---
上下文:
{context}
---
问题:
{question}
---
简要回答:
"""

2. 规约模板 (Reduce Prompt)
这个模板的目标是让LLM扮演一个“总编”的角色，将一系列零散的答案片段，整合成一篇通顺、完整的最终报告。

REDUCE_PROMPT_TEMPLATE = """
你是一个信息整合专家。
下面提供了一系列针对同一个问题“{question}”的初步回答。
---
初步回答列表:
{answers}
---
你的任务是将这些初步回答整合成一个最终的、连贯且全面的答案。请确保最终答案流畅、准确，并去除重复信息。
最终答案:
"""

上手实战：用Map-Reduce总结文档集

假设用户的问题是“请总结RAG的优势”，而我们召回了3个分别阐述不同优势的文档。

# 这是一个模拟的LLM调用函数
def call_llm(prompt):
    print("--- 正在调用LLM ---")
    print(f"Prompt: {prompt[:200]}...") # 只打印部分prompt
    # 手动模拟LLM的回答
    if "减少模型幻觉" in prompt:
        return "RAG的主要优势之一是，通过引入外部知识，能有效减少LLM的幻觉现象。"
    elif "实时性" in prompt:
        return "RAG的另一个优点是答案具有高实时性，因为它能检索最新的文档信息。"
    elif "可解释性" in prompt:
        return "此外，由于答案有明确的来源依据，RAG系统的可解释性也更强。"
    elif "信息整合专家" in prompt:
        return "RAG的主要优势包括：首先，通过引入外部知识能有效减少模型幻觉；其次，它能检索最新信息，保证答案的实时性；最后，由于答案有据可查，系统的可解释性也更强。"
    else:
        return ""

# --- 1. 准备工作 ---
question = "请总结RAG的优势"
documents = [
    "RAG，即检索增强生成，其主要优点是能将实时、动态的外部知识库引入到大型语言模型中，从而显著减少模型产生事实性错误的‘幻觉’现象。",
    "对于需要获取最新信息的场景，RAG的优势非常明显。例如，在回答今天的新闻或最新的产品信息时，RAG可以通过检索实时更新的文档库来提供准确答案。",
    "RAG的可追溯性也为其带来了更好的可解释性。当系统给出一个答案时，它可以同时提供答案所依据的原文出处，这在企业知识库等严肃场景中至关重要。"
]

# --- 2. Map阶段 ---
intermediate_answers = []
# 在真实应用中，这里的for循环可以替换为并行API调用
for doc in documents:
    map_prompt = MAP_PROMPT_TEMPLATE.format(context=doc, question=question)
    answer = call_llm(map_prompt)
    if answer:
        intermediate_answers.append(answer)

print("\n--- Map阶段产出的中间答案 ---")
for i, ans in enumerate(intermediate_answers):
    print(f"{i+1}: {ans}")

# --- 3. Reduce阶段 ---
# 将所有中间答案合并
final_context = "\n".join(intermediate_answers)
reduce_prompt = REDUCE_PROMPT_TEMPLATE.format(question=question, answers=final_context)
final_answer = call_llm(reduce_prompt)

print(f"\n--- Reduce阶段产出的最终答案 ---\n{final_answer}")

结果分析：
这个流程清晰地展示了Map-Reduce的威力：

Map阶段：3个文档被“并行”处理，各自输出了一个核心观点（减少幻觉、实时性、可解释性）。
Reduce阶段：LLM接收到这3个独立的观点，并在REDUCE_PROMPT_TEMPLATE的指导下，将它们完美地整合成了一段逻辑清晰、内容全面的最终总结。

对比总结：Refine vs. Map-Reduce

特性	Refine (迭代式精炼)	Map-Reduce (映射-规约)
LLM调用方式	串行 (Sequential)	并行后串行 (Parallel then Serial)
延迟	高 (N次串行调用)	较低 (得益于Map阶段并行)
成本 (API调用次数)	N次	N+1次 (通常更多)
信息保真度	高 (每一步都看到完整上下文)	较低 (Reduce步只能看到摘要)
最适用场景	生成需要综合深度信息的详细报告	对大量文档进行快速总结或问答

总结与预告

今日小结：

Map-Reduce 是一种通过“分而治之”思想来处理海量文档的高级RAG策略。
它通过并行的Map阶段和统一的Reduce阶段，在保证信息覆盖度的同时，显著降低了处理延迟。
它与Refine策略各有优劣，前者更精细但慢，后者更粗犷但快，应根据具体场景选择。

我们学习了Refine和Map-Reduce，这两种策略都聚焦于如何更好地“处理”已经检索到的文档。但它们都有一个共同的前提：第一轮的检索结果是靠谱的，至少包含了所需的全部信息。

万一，第一轮检索就“翻车”了呢？如果召回的文档压根就不包含答案，那后续的Refine或Map-Reduce做得再好，也是无米之炊。

有没有一种方法，能让RAG系统在发现检索结果不佳时，自我反思、自我纠正，并自动发起新一轮更精准的检索呢？

明天预告：RAG 每日一技（十三）：检索一次不够？学习查询改写与迭代式检索！

明天，我们将探索一种让RAG系统更具“智能”的策略：当RAG对初步检索结果不满意时，它会像一个聪明的侦探，重新分析线索，改写自己的查询问题，再次出击！敬请期待！