GraphRAG 知识图谱介绍

近年来,大语言模型(LLM)问答系统在技术、性能和应用方面得到了长足进步,垂直领域应用已成为LLM问答系统落地的主要场景。大语言模型(LLM)通常基于互联网公开数据训练而成,落地垂直领域应用时需要引入领域知识来增强LLM问答系统的准确性和可靠性。一直以来,RAG(Retrieval-Augmented Generation,检索增强生成)技术是这方面的默认选择。直到最近,微软发布并开源了GraphRAG(图检索增强生成)技术,一种新的选择成为可能。零点有数将用一文带大家读懂GraphRAG。

一、LLM问答系统的不足

尽管大语言模型(LLM)问答系统在技术、性能和应用方面取得了长足进步,但在落地垂直领域应用方面始终存在“致命伤”:存在幻觉——“一本正经的胡说八道”,即生成与事实不符的答案(Response)(简称“事实性错误”)。
在这里插入图片描述

附图1 LLM问答系统示意图

为此,增强LLM问答系统在垂直领域方面的知识,以增强答案生成的事实性,减少幻觉,便成了自然的选择——RAG(Retrieval-Augmented Generation,检索增强生成)应运而生。

二、什么是RAG

如附图二所示,给定一个查询(Query),RAG从一个垂直领域知识库(图中向量化后的“Vector Database”)中检索(Retrieve)与查询内容相关的文档或段落(Context,简称“上下文”),并将查询信息(Query)与检索到的上下文信息(Context)进行组合转化成LLM的“提示词”((Prompt),由LLM生成(Generate)答案(Response)。这便于RAG的应用原理。

相比附图一的LLM问答系统由单一的“查询”(Query)形成的“提示词”而言,RAG的“提示词”信息得到了“增强”(Augmented)——不仅有查询信息(Query),还集成了通过查询信息检索到与其最相关的上下文(Context)信息。鉴于上下文信息