距离之前放出GraphRAG
惊艳全场还没几个月,微软又要「革自己的命」了:
这不,最近又提出了名为LazyGraphRAG
的GraphRAG
升级版。
根据我的经验,名字里但凡带Lazy
字样的玩意儿,一定都是效率极高的存在。
毕竟「懒是人类之光」。
好啦我就不闲扯了,这里给大家放送一下文章的简单翻译版👇:
LazyGraphRAG:为质量和成本设立新标准
图16:一个白色的几何网络图标,具有相互连接的节点和线,居中显示在从左侧蓝色渐变到右侧粉色的背景上。
每个用例都能负担得起的 GraphRAG
GraphRAG项目(在新标签页中打开)[4]旨在通过利用非结构化文本中的隐式关系,扩大AI系统可以回答的私有数据集问题类型。
与传统的向量RAG(或"语义搜索")相比,GraphRAG的一个关键优势在于其能够回答针对整个数据集的_全局_查询,例如"数据中的主要主题是什么?“或"对X最重要的影响是什么?”。相反,向量RAG擅长_局部_查询,即答案类似于查询并可以在特定文本区域中找到,通常用于"谁"、“什么”、"何时"和"哪里"等问题。
在最近的博客文章中,我们分享了两种新的查询机制,这些机制利用GraphRAG创建的丰富的、基于摘要的数据索引来提高局部搜索性能[5]和全局搜索成本[6]。
图17:数字病理学帮助解码肿瘤微环境以实现精准免疫疗法。GigaPath是一种新颖的视觉transformer,通过为数字病理学调整扩张注意力,可以扩展到千兆像素全幻灯片图像。在与Providence和UW的联合工作中,我们正在分享Prov-GigaPath,这是第一个在大规模真实世界数据上预训练的全幻灯片病理学基础模型,旨在推进临床研究和发现。
GigaPath:数字病理学的全幻灯片基础模型
数字病理学帮助解码肿瘤微环境以实现精准免疫疗法。在与Providence和UW的联合工作中,我们正在分享Prov-GigaPath,这是第一个全幻灯片病理学基础模型,旨在推进临床研究。
阅读更多[7]
在新标签页中打开
在这篇博客文章中,我们介绍了一种根本不同的图形增强RAG方法,它无需对源数据进行预先汇总,从而避免了对某些用户和用例可能过于昂贵的前期索引成本。我们将这种方法称为"LazyGraphRAG"。
LazyGraphRAG的一个关键优势在于其在成本和质量方面的固有可扩展性。在一系列竞争方法中(标准向量RAG、RAPTOR(在新标签页中打开)[8],以及GraphRAG 局部(在新标签页中打开)[9]、全局(在新标签页中打开)[10]和DRIFT(在新标签页中打开)[11]搜索机制),LazyGraphRAG在成本-质量谱系上表现出强大的性能,具体如下:
-
• LazyGraphRAG的数据索引成本与向量RAG相同,仅为完整GraphRAG成本的0.1%。
-
• 对于与向量RAG相当的查询成本,LazyGraphRAG在局部查询上优于所有竞争方法,包括长上下文向量RAG和GraphRAG DRIFT[12]搜索(我们最近引入的、已证明优于向量RAG的RAG方法)以及GraphRAG局部搜索。
-
• 相同的LazyGraphRAG配置在全局查询上显示出与GraphRAG全局搜索相当的答案质量,但查询成本_低700多倍_。
-
• 以GraphRAG全局搜索查询成本的4%,LazyGraphRAG在局部和全局查询类型上_显著优于所有竞争方法_,包括C2级(社区层次结构的第三级,推荐用于大多数应用)的GraphRAG全局搜索。
LazyGraphRAG即将进入我们的开源GraphRAG库(在新标签页中打开)[13],提供一个统一的查询界面,用于在轻量级数据索引上进行局部和全局查询,其成本可与标准向量RAG相媲美。
通过延迟LLM使用来混合向量RAG和图形RAG
LazyGraphRAG旨在融合向量RAG和图形RAG的优势,同时克服它们各自的局限性:
-
• 向量RAG是一种_最佳优先_搜索形式,使用与查询的相似性来选择最匹配的源文本块。然而,它对于全局查询没有考虑数据集的广度的意识。
-
• GraphRAG全局搜索是一种_广度优先_搜索形式,使用源文本实体的社区结构来确保查询在考虑整个数据集广度的情况下得到回答。然而,它对于局部查询没有考虑最佳社区的意识。
LazyGraphRAG以迭代深入的方式结合了最佳优先和广度优先搜索动态(表1)。与完整GraphRAG的全局搜索机制相比,这种方法在延迟LLM使用方面是"懒惰"的,并显著提高了答案生成的效率。总体性能可以通过单个主要参数 – 相关性测试预算 – 以一致的方式控制成本-质量权衡。
|
| GraphRAG | LazyGraphRAG |
| — | — | — |
| 构建索引 | a)使用LLM提取和描述实体及其关系,b)使用LLM汇总每个实体和关系的所有观察结果,c)使用图统计优化实体图并提取层次社区结构 | a)使用NLP名词短语提取提取概念及其共现,b)使用图统计优化概念图并提取层次社区结构 |
| 汇总索引 | 使用LLM汇总每个社区中的实体和关系 | 无 – "懒惰"方法将所有LLM使用推迟到查询时间 |
| 细化查询 | 无 – 整个过程使用原始查询 | 使用LLM:a)识别相关子查询并将其重新组合为单个扩展查询,b)使用概念图中的匹配概念细化子查询 |
| 匹配查询 | 无 – 使用所有社区摘要回答所有查询(_广度优先_) | 对于每个_q_个子查询[3-5]:
– 使用文本块嵌入和块-社区关系,首先按相似性对文本块排序,然后按其前_k_个文本块的排名对社区排序(最佳优先_)
– 使用基于LLM的句子级相关性评估器按顺序对排名社区中的前_k_个未测试文本块的相关性进行评级(_广度优先_)
– 在连续_z_个社区未产生相关文本块后递归进入相关子社区(_迭代深入_)
– 当不再有相关社区或达到_相关性测试预算 / _q_时终止 |
| 映射答案 | 使用LLM并行地在随机批次的社区摘要上回答原始查询 | 对于每个_q_个子查询[3-5]:
– 从相关文本块构建概念子图
– 使用概念的社区分配将相关块分组
– 使用LLM从相关块组中提取子查询相关的声明,以聚焦于相关内容
– 对提取的声明进行排名和过滤,以适应预定义的上下文窗口大小 |
| 缩减答案 | 使用LLM使用映射的答案回答原始查询 | 使用LLM使用提取的映射声明回答扩展查询 |
LazyGraphRAG答案质量处于最先进水平
我们将不同相关性测试预算下的LazyGraphRAG与一系列竞争方法进行了比较,具体如下:
-
• 数据集:5,590篇美联社新闻文章(经授权使用)
-
• 查询:100个合成查询(50个局部和50个全局),使用将在未来的博客文章中描述的新方法生成
-
• 指标:全面性、多样性、赋能(如此处[14]所述,使用LLM逐对比较每个指标的答案)
-
• 条件:包括三种相关性测试预算设置的LazyGraphRAG,以及来自GraphRAG和文献的八种竞争条件(表2)。
条件 | 描述 |
---|---|
Z100_Lite | LazyGraphRAG,相关性测试预算为100,在所有步骤中使用低成本LLM模型 |
Z500 | LazyGraphRAG,相关性测试预算为500,使用低成本LLM进行相关性测试,使用更先进(成本更高)的LLM进行查询细化和映射/缩减答案生成 |
Z1500 | LazyGraphRAG,相关性测试预算为1,500,使用低成本LLM进行相关性测试,使用更先进(成本更高)的LLM进行查询细化和映射/缩减答案生成 |
C1 | 社区级别1的GraphRAG全局搜索 |
C2 | 社区级别2的GraphRAG全局搜索 |
C3_Dynamic | 使用动态社区选择的社区级别3的GraphRAG全局搜索(在之前的博客文章[15]中引入的成本节省解决方案) |
LS | GraphRAG局部搜索 |
DRIFT | GraphRAG DRIFT搜索 |
SS_8K | 使用向量RAG检索8k个输入标记的语义搜索 |
SS_64K | 使用向量RAG检索64k个输入标记的语义搜索(用于研究长上下文窗口对向量RAG的影响) |
RAPTOR | 基于层次聚类的RAG方法,与LazyGraphRAG共享一些类似特征 |
图1展示了LazyGraphRAG对八种竞争条件的胜率。在100个相关性测试的最低预算水平下,使用低成本LLM模型(与SS_8K成本相同),LazyGraphRAG在局部和全局查询上显著优于所有条件,除了全局查询的GraphRAG全局搜索条件。在500个相关性测试的预算下,使用更先进的LLM模型(为C2查询成本的4%),LazyGraphRAG在局部和全局查询上显著优于所有条件。随着相关性测试预算增加到1,500,LazyGraphRAG的胜率持续增加,证明了其在成本与质量方面的可扩展性。
Image 18: Figure 1. Clustered bar charts showing win rates of LazyGraphRAG with relevance test budgets of (100, 500, 1,500) over competing conditions for each combination of (local, global) queries and (comprehensiveness, diversity, empowerment) metrics.
展望未来
LazyGraphRAG表明,单一、灵活的查询机制可以显著优于多样化的专门查询机制,横跨本地-全局查询范围,并且无需前期的LLM数据摘要成本。其极快且几乎免费的索引使LazyGraphRAG非常适合一次性查询、探索性分析和流式数据使用场景,而其通过增加相关性测试预算平滑提高答案质量的能力,使其成为对比RAG方法的宝贵工具(例如,“RAG方法X在任务Z上以预算Y击败LazyGraphRAG”)。
这是否意味着所有图形增强的RAG都应该是"懒惰"的?我们相信答案是否定的,原因有三:
-
1. 实体、关系和社区摘要的GraphRAG数据索引具有超出问题回答的使用价值(例如,阅读和共享报告)。
-
2. 结合类似LazyGraphRAG搜索机制的GraphRAG数据索引,可能比单独的LazyGraphRAG取得更好的结果。
-
3. 为支持类似LazyGraphRAG搜索机制而设计的新型GraphRAG数据索引(例如,通过预防性的声明和主题提取),可能会取得最佳可能的结果。
我们将在未来探索这些方向,所有的进展(包括LazyGraphRAG本身)都将通过GraphRAG GitHub仓库[16]发布。敬请关注!
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈