RAG已死？上下文为王？如何为大模型打造“黄金记忆”

最新推荐文章于 2025-09-13 23:06:41 发布

攻城狮7号

最新推荐文章于 2025-09-13 23:06:41 发布

阅读量728

点赞数 26

CC 4.0 BY-SA版权

分类专栏： AI前沿技术要闻文章标签： RAG 上下文工程 LLM 大模型记忆人工智能

本文链接：https://blog.csdn.net/linshantang/article/details/151408000

AI前沿技术要闻专栏收录该内容

137 篇文章

订阅专栏

前言：我们误解了RAG，也低估了“上下文”

一、致命的“上下文腐烂”：为什么更大的窗口不等于更强的能力？

二、上下文工程的核心：两阶段精选，为模型打造“黄金20页”

2.1 第一阶段：混合召回（Hybrid Recall）—— 宁可错杀，不可放过

2.2 第二阶段：LLM重排序（LLM as a Re-ranker）—— 让最懂的人做最终决策

三、从“炼金术”到“工程学”：量化与迭代的闭环

3.1 打造你的“黄金数据集（Golden Set）”

3.2 利用“生成式基准测试（Generative Benchmarking）”

结论：告别RAG，拥抱一个更严谨的AI未来

🎬 攻城狮7号：个人主页

🔥 个人专栏:《AI前沿技术要闻》

⛺️ 君子慎独!

🌈 大家好，欢迎来访我的博客！
⛳️ 此篇文章主要介绍 RAG已死？上下文为王？
📚 本期文章收录在《AI前沿技术要闻》，大家有兴趣可以自行查看！
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝！

前言：我们误解了RAG，也低估了“上下文”

曾几何时，检索增强生成（RAG）如同一道神光，照亮了大型语言模型（LLM）通往现实世界的道路。通过外挂知识库，RAG让大模型能够回答训练数据之外的问题，有效缓解了“知识过时”和“模型幻觉”两大顽疾，一度被视为LLM应用落地的标配。

然而，正当我们习惯于谈论如何优化分块（Chunking）、选择哪家向量数据库时，Chroma的创始人Jeff Huber却抛出了一个颠覆性的观点：“RAG已死”。

这句话并非否定检索的价值，恰恰相反，他认为我们对它的理解过于肤浅和笼统。“RAG”这个术语，将“检索”、“增强”、“生成”三个完全不同的过程强行捆绑，变成了一个模糊不清的黑箱。开发者们就像古代的炼金术士，凭直觉和运气调整参数，却难以系统性地优化和迭代。

真正的症结在于，我们一直专注于“检索”这个动作，却忽略了其最终目的——为大模型构建一个高质量的上下文（Context）。

因此，一场从“RAG炼金术”到“上下文工程学”的革命，已然打响。

一、致命的“上下文腐烂”：为什么更大的窗口不等于更强的能力？

在探讨解决方案之前，我们必须直面一个残酷的现实：盲目地向大模型投喂更多信息，不仅无益，甚至有害。这就是Chroma在其研究报告中揭示的“上下文腐烂（Context Rot）”现象。

过去，我们普遍认为，只要模型的上下文窗口足够大（例如达到百万级Token），我们就可以把所有可能相关的资料都塞进去，让模型自己“大海捞针”。但实验数据无情地戳破了这个幻想。

研究表明，随着上下文窗口中Token数量的急剧增加，主流大模型（如Claude 3、GPT-4 Turbo）的性能会显著下降。模型会像一个注意力不集中的学生，开始忽略那些明确写在“考卷”上的指令和信息。

这背后的原因很简单：注意力的稀释。

想象一下，让一位专家阅读三页核心资料来回答一个问题，和他让他从一座图书馆里自己找答案，效果天差地别。超长的上下文窗口，就像那座图书馆，充满了干扰和噪声，反而稀释了模型对关键信息的注意力，导致其有效的推理能力下降。

“上下文腐烂”现象的发现，为“上下文工程”的必要性提供了最坚实的证据：上下文的质量，远比其长度更重要。 我们的目标，不应该是把上下文窗口“喂饱”，而是要为模型“配餐”，确保每一口都是营养。

二、上下文工程的核心：两阶段精选，为模型打造“黄金20页”

那么，如何才能为模型精心准备一份高质量的上下文“营养餐”呢？Jeff Huber分享了顶级AI团队正在普遍采用的核心方法论——两阶段检索（Two-stage Retrieval）。

这个过程就像一个严谨的学术研究员准备论文资料，分为“广撒网”和“精挑选”两个步骤。

2.1 第一阶段：混合召回（Hybrid Recall）—— 宁可错杀，不可放过

这一阶段的目标是“高召回率”，即尽可能地把所有可能相关的候选信息都找出来。如果说传统RAG是拿着“语义相似”这一张渔网去捕鱼，那么混合召回就是动用了整个渔船队。

它通常会结合多种信号：

（1）向量搜索：基于语义相似度，找到意思相近的内容。

（2）词法搜索：即传统的关键词或正则表达式搜索，确保不会漏掉任何精确匹配的文本。

（3）元数据过滤：根据时间、来源、标签等结构化信息进行筛选。

通过这套组合拳，系统会从海量的知识库中，快速筛选出数百个（例如200-300个）相关度较高的候选片段。这个阶段，我们不在乎里面有多少“水分”，关键是确保“真金”一定在这堆沙子里。

2.2 第二阶段：LLM重排序（LLM as a Re-ranker）—— 让最懂的人做最终决策

找到了几百个候选片段后，我们不能粗暴地把它们全部丢给模型。此时，最关键的一步登场了：让LLM亲自下场，担任“重排序器”的角色。

具体做法是，将这数百个候选片段，连同用户的原始问题，一起打包发送给LLM，然后让它来做判断题：“请根据我的问题，从以下这些资料中，挑选出最相关的20-30个，并按相关性排序。”

这个方法堪称“暴力美学”，但效果出奇地好。因为谁最懂什么样的上下文对最终生成最有帮助？当然是LLM自己。它就像一位经验丰富的开卷考生，在正式答题前，先快速浏览一遍所有参考资料，然后只把最有用的那几页（Top 20-30个片段）放在手边。

随着LLM推理成本的不断下降，这种用大模型自己做精选的方法正成为主流。它确保了最终进入生成环节上下文窗口的，都是经过千挑万选的、最高质量的“黄金信息”。

三、从“炼金术”到“工程学”：量化与迭代的闭环

有了先进的方法论，如何确保我们的上下文工程系统能够持续改进，而不是一次性的“撞大运”？答案是：建立量化的评估体系。

3.1 打造你的“黄金数据集（Golden Set）”

这是将“炼金术”变为“工程学”的关键一步。团队需要花一个晚上的时间，手动创建并标注一个“黄金数据集”。这个数据集包含了一系列典型的用户问题，以及与之对应的、由人类专家判断出的“最完美的上下文片段”。

这个数据集规模不必很大，几百个高质量的样本就足够。一旦拥有了它，你就拥有了一把“标尺”。无论是更换嵌入模型、调整分块策略，还是优化重排序的提示词，你都可以用这个黄金数据集来量化评估每一次改动带来的效果是好是坏。优化过程从此变得有据可依、可衡量、可迭代。

3.2 利用“生成式基准测试（Generative Benchmarking）”

手动创建黄金数据集费时费力，有没有更高效的方法？Chroma提出了一个绝妙的技巧：让LLM来帮你创建评估数据。

具体做法是，让LLM读取你的文档，然后反向生成它认为用户可能会问的、与这段文档相关的问题。通过这种方式，你可以快速地、低成本地构建起高质量的“问题-答案（上下文）”对，极大地加速了评估数据集的创建过程。

结论：告别RAG，拥抱一个更严谨的AI未来

回顾全文，Jeff Huber的“RAG已死”并非危言耸听，而是一次及时的警醒。它宣告了一个依赖直觉和运气的“炼金术时代”的结束，和一个推崇量化、迭代与系统性优化的“工程学时代”的到来。

（1）为什么变？因为简单的RAG概念模糊不清，且我们遭遇了“上下文腐烂”这个基本障碍。

（2）变成什么？转向名为“上下文工程”的、更清晰、更高级的范式。

（3）如何变？通过两阶段检索、LLM重排序、黄金数据集评估等一系列具体的工程实践。

说到底，AI系统的“记忆”能力，并不是什么神秘的魔法，它本质上就是上下文工程的最终成果。一个好的AI，就是一个能够为用户的每一次交互，都精准地提供最相关历史信息和知识的、卓越的上下文工程系统。

未来，任何一家成功的AI原生公司，其最核心、最无法被复制的护城河，都将是其世界一流的上下文工程能力。而这场变革，现在才刚刚开始。

看到这里了还不给博主点一个：
⛳️ 点赞☀️收藏 ⭐️ 关注！
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持！
你们的点赞就是博主更新最大的动力！