tips:其中所有【】表示的内容为博主本人想法,非作者观点,请注意辨别。
这是一本全面覆盖知识图谱多个方面的书籍。书中不仅详细介绍了知识图谱的表示、存储、获取、推理、融合、问答和分析等七大方面,还深入探讨了多模态知识图谱、知识图谱与图神经网络的融合、本体表示学习、事理知识图谱,以及知识增强的语言预训练模型等新兴热点和发展趋势。
目录
1.重要观点摘录
1.知识图谱是一种世界模型
知识图谱本质上可以看作一种世界模型World Model、纵观人工智能相关方向的发展历史,一直有一个核心的命题是寻找合适的万物机器表示,用于记录有关世界的知识。
知识图谱同时拥抱机器的符号表示和向量表示,并能将两者有机地结合起来解决搜索、问答、推理和分析等多方面的问题,关于这一点的介绍也将贯穿本书的始终。
2.知识图谱具有人工智能的基因,这可以追溯到1960年,人工智能领域学者提出的知识表示方法语义网络的本质就是一种知识图谱的表示方式
3.知识图谱也具有很鲜明的互联网基因互联网的发展特别是万维网的发展促进了人类知识的共享开放领域数据如Wikipedia的众包积累,没有万维网数十年积累的开放数据,也不会有谷歌的知识图谱。
4.知识图谱的价值
知识图谱支持语义搜索
知识图谱支持的事物级别而非文本级别的搜索,大幅度提升了用户的搜索体验谷歌在2012年推出知识图谱支持的新搜索引擎时,提出的口号是“Things,Not Strings!"
知识图谱支持智能问答
智能问答本质就是一种对话式的搜索,相比普通的搜索引擎,智能问答更加需要事物级的精确搜索和直接回答
当前,实现智能问答功能主要有三种形式,第一种是问答对,第二种形式要求给定问句就能直接从大段文本中准确地定位答案,第三种是知识图谱。
知识图谱支持下的推荐系统
知识图谱的引入丰富了User和ltem的语义属性和语义关系等信息,将大大增强User和Item的特征表示,从而有利于挖掘更深层次的用户兴趣。
5.知识图谱的两个核心技术维度
从知识的视角,关心怎么表示概念和实体,怎样刻画它们之间的关系,怎样进1步表示公理、规则等更加复杂的知识
随着深度学习的兴起,怎样利用向量表示实体和关系产生了KG Embedding的技术领域。怎样利用神经网络来实现逻辑推理则产生了Neural Symbolic Reasoning等新兴的技术领域。
从图的视角,关心图中的节点、边、链接、路径、子图结构,怎样存储大规模的图数据,怎样利用图的结构对图数据进行推理、挖掘与分析等
知识图谱一方面比纯图的表达能力更强,能建模和解决更加复杂的问题。另外一方面又比传统专家系统时代的知识表示方法采用的形式逻辑更简单,同时容忍知识中存在噪声,在构建过程更加容易扩展,因此得到了更为广泛的认可和应用。
6.知识图谱的技术栈
知识图谱涉及的技术要素可以分为表示、存储、抽取、融合、推理、问答和分析等几个方面
例如,从表示的维度,涉及最基本的属性图表示和RDF图模型,以及更复杂知识的OWL本体表示和规则知识建模。
从存储的维度,涉及怎样利用已有的关系数据库存储知识图谱,也涉及性能更高的原生图存储、图查询语言等。
从抽取的维度,涉及怎样从文本中抽取概念、识别实体以及抽取三元组和事件等更为复杂的结构化知识
从融合的角度,涉及怎样实现本体映射和概念匹配,以及实例层的实体对产等技术。
从推理的角度,涉及基于传统符号逻辑的推理技术,以及新兴的基于表示学习和神经网络的推理技术。
从问答的角度,涉及问句理解、语义解析、答案生成和实体链接等多个智能问答领域的技术
从分析的角度,涉及传统的图算法,以及利用图嵌入、图神经网络等技术对知识图谱数据进行深度挖掘和分析等方面的技术。
在解决一个实际问题时,通常仅需要用到其中若千技术的组合,但对它们进行体了解和全面把握,对于提出系统性的解决方案会有很大帮助。
7.知识图谱领域最常用的表示是符号表示和向量表示两种方法
符号表示方法包括RDF、OWL等
RDF(Resource Description Framework)是资源描述框架的缩写,它是一种用于描述Web资源的语言。
OWL(Web Ontology Language)是网络本体语言的缩写,它是一种基于XML的语言,用于描述网络上的本体。
向量表示方法包括Word2Vec、 GloVe等
Word2Vec是一种浅层神经网络模型,用于将词汇表中的单词转换为向量
GloVe是一种基于全局词频统计的词嵌入模型,用于将词汇表中的单词转换为向量。
8.将符号表示和神经网络方法相互结合是知识表示的重要发展方向,特别是对于知识图谱,这两者的有机融合也是知识图谱的构建和应用非常重要的基本技术路线,这一点也将贯穿于本书的始终。
9.图的结构和语义类型信息是进一步构建更加复杂知识结构的基础
知识图谱中包含两类信息,一类是图的结构信息,另一类是由节点和边的标记所包含的语义类型信息。
10.知识图谱推理的两种方法
推理能力是人类心智区别于普通物种的重要特征之一。人类通过推理,从已知的事实中获取和习得新的知识。利用机器实现类似于人类心智的推理能力是人工智能自诞生以来最核心的目标和任务之一。
构建各种各样的知识图谱来描述客观世界,抽象万物之间的逻辑关系,不只是为了查询和搜索关于万物的信息,更是为了能够基于这些关于事物的描述性事实,去推断、归纳和预测未知的事实。
基于符号逻辑的推理:从知识表示的维度,即:怎样表示和描述知识,进而完成推理.
基于表示学习的推理:从知识表示学习的角度,希望基于表示学习和神经网络来完成知识推理两种推理方法的比较
两种推理实现形式对于知识图谱的推理应用是同等重要的,两种推理方法各有优缺点,需要根据具体应用场景选择合适的方法。可以集成两者的一些方法,以发挥各自的优势。
符号表示是一种显式的知识表示方法,它的最大优势是可解释性很好。而向量表示的优势是比较易于捕获隐含的知识,例如可以利用两个实体在向量空间的位置推算它们可能存在的各种关系。这很重要,因为永远无法显式描述所有的知识。但向量表示的最大缺点是丢失了符号表示的可解释性。参数化的数值对机器是友好的,但不利于人来理解。
【大模型将向量表示做到了极致,而我重新回顾知识图谱的目的就是重新利用知识图谱的符号表示获得可解释性】
从推理模式的维度,主要从演绎推理和归纳推理两个维度进行划分。演绎推理更多依赖于显式的知识描述和逻辑推导,而归纳推理则更多地依赖于大数据和机器学习方法。
【同样的,归纳推理的可解释性不好,所以我会更关注本文的演绎推理是怎么实现的】
在本书中,将分别介绍基于符号表示的演绎推理方法,如利用本体公理或Datalog实现的推理;基于符号表示的归纳推理,如利用图结构做归纳的路径