Response指南：为什么90%的多模态RAG，一做就会，一用就废？-CSDN博客

近年来，像GPT - 4V、Gemini Pro Vision这类多模态大模型迅速崛起。它们具备对图像、文本、音频等多种数据类型进行统一理解的能力，并且将这种能力拓展到了搜索问答、辅助诊疗、法律检索等更为复杂的任务场景当中。

相较于传统大语言模型（LLMs），多模态大模型拥有更强的上下文理解能力，能够适配更加丰富的输入方式，在实际应用中展现出更广泛的落地潜力。

然而，这些模型也延续了LLMs的一个老问题：幻觉。特别是在处理图文混合输入时，模型可能会输出与事实不符、逻辑混乱的内容。为解决这一难题，RAG（检索增强生成）成为了业内的主流解决方案。它通过外部向量数据库提供的高度相关内容，帮助模型“补充知识”，进而降低产生幻觉的概率。

在Zilliz主办的一场非结构化数据Meetup上，来自已被Snowflake收购的TruEra的开发布道师Josh Reini，深入探讨了多模态RAG架构在实际应用中面临的挑战以及落地经验。他还分享了如何借助开源工具TruLens进行系统级评估，以及怎样集成Milvus向量数据库来提高检索效果。

1 、为何说多模态RAG会成为大趋势？

不同于传统只接受文本输入的语言模型，多模态大模型能够并行处理图像、文字、视频等多种模态的信息，在理解力和生成能力方面更贴近“现实场景”。

举例来说，如果仅依靠图像输入让模型生成中国神话角色“哪吒”的形象，可能会出现“双头七臂”这样的误解；但要是配合“三头六臂”的文本提示，生成的结果就能更准确地符合文化设定。

为了让模型具备“长期记忆”，多模态RAG可以把来自外部的图像、文字、音频、视频等信息进行嵌入（embedding）处理，并存储到向量数据库（如Milvus或托管版Zilliz Cloud）中。通过结合检索与生成，形成更强的智能推理能力。

与传统LLM相比，这种多模态RAG能力，就好比给一个聪明的大脑，除了加上负责记忆的海马体之外，还打通了视觉、听觉等五感，从而能够更好地理解和响应用户的需求。

2、多模态 RAG 系统架构拆解

我们以“图像问答”任务为例，来理解多模态 RAG 的工作流程：

多模态RAG系统工作流程如下：

多模态输入处理（Multimodal Input Processing）：RAG系统获取用户的查询问题以及对应的图像。
嵌入（Embedding）：借助多模态嵌入模型，把图像和文本查询转化为统一的向量表示，进而实现对不同模态输入之间关系的分析、理解与比较。
向量数据库检索（Vector Database Retrieval）：系统运用嵌入向量对Milvus或者Zilliz Cloud数据库进行查询，返回相似图像及其关联注释。
内容整合（Completion）：将检索到的相似图像及其注释等数据与原始输入查询相结合，构建成大模型生成响应的上下文窗口。
结果响应（Response）：多模态大模型依据该上下文窗口，输出更为精准且富有语境感的答案。

3、原型为何不能直接上线？

多模态RAG在演示阶段往往效果惊人，然而一旦投入生产环境，问题便会显现：怎样判断模型是否在“信口开河”？检索的内容是否准确？是否切实运用了检索到的内容？不同组件出现问题时，该如何排查？

这些问题的关键在于——缺乏系统性评估机制。而对于教育、医疗、金融等对准确率要求极高的行业来说，评估工具必不可少。

当前常见的开源或商用评估工具包括TruLens、Ragas、LangSmith、LangFuse、OpenAI Evals、DeepEval和Phoenix。

其中，TruLens是目前多模态支持能力最强、社区活跃度颇高的方案之一，能够与向量数据库、OpenAI、LangChain等框架实现无缝集成。

4、如何借助TruLens评估多模态RAG：三大核心指标

总体而言，Trulens的优势体现在对应用的监控、测试和调试能力上。通过集成TruLens，开发团队能够在系统运行过程中持续记录日志、收集反馈，并在每一次迭代中明确优化方向。

在典型的RAG系统中，有三个核心组件需要评估，具体如下：

RAG包含三个核心组件：
Query（查询）：指用户提交的查询内容，可能以纯文本形式呈现，也可能是文本与图像相结合的形式。在此环节，需对输入内容的清晰度进行评估，并排查是否存在歧义问题（例如图文信息相互冲突）。

Context（检索上下文）：这是系统从向量数据库中检索到的相关信息，涵盖图像和文本等类型。此部分的评估重点在于，判断系统从向量数据库检索到的内容是否与问题相关，以及是否提供了有价值的信息。

Response（模型输出）：由LLM或多模态模型基于检索到的上下文信息和原始查询内容生成答案。在这一环节，需要评估生成的回答是否以检索到的上下文为依据，是否存在逻辑错误或编造内容的情况。

基于上述核心组件，TruLens的所有评估主要围绕以下三个方面展开：

Context Relevance（上下文相关性）：检索到的内容与原始问题是否匹配？
Groundedness（基于事实）：回答内容是否有检索到的内容作为支撑？
Answer Relevance（答案相关性）：最终生成的回答是否有用、准确且逻辑清晰？

5、实战案例：X-ray Insight医学图像问答系统

在某次黑客松活动中，X-ray Insight团队开发了一款基于Milvus和TruLens的图像问答系统，主要用于X光图像的辅助诊断。该系统的工作流程如下：

图像预处理：用户上传X光图像及诊断信息。系统对X光图像生成embedding后，将其与元数据（诊断信息）一同加载至Milvus/Zilliz向量数据库。
向量检索：Milvus检索相似病例的图像及诊断注释。
诊断生成：多模态模型结合原始输入信息和检索到的注释内容，生成建议诊断。
系统评估：TruLens从预处理阶段开始，全程评估生成的诊断结果是否真实可靠，并根据反馈信息对系统进行优化改进。

6、结论

多模态RAG架构的诞生，无疑使我们朝着“通用人工智能”的愿景迈进了一大步。不过，它并非包治百病的万能之策。即便是再先进的模型，也可能在关键节点出现幻觉现象。实际上，真正决定一个AI系统能否实现落地应用并进行可持续演进的，并非在于它能够生成何种内容，而是取决于我们是否有能力让它运作得更为出色。

若想让AI系统运作得更为出色，就必须开展充分的工程实践，同时注重对细节的雕琢。在此过程中，类似Milvus这样的向量数据库，能够让RAG系统的“知识外脑”具备可扩展性、可控性以及可观测性。而TruLens则将评估工作从事后追溯转变为在过程中进行优化，使其成为系统性设计的一个组成部分。

7、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】