本体结构对实体链接的影响研究
1. 研究背景与相关工作
在实体链接任务中,若背景知识不基于维基百科链接结构,就难以计算候选实体的语义相关性。近年来,为避免对维基百科链接结构的依赖,出现了知识无关的方法。我们需要一种独立于知识库的语义相关性度量,以便在除维基百科之外的其他知识库中应用实体链接。
一些开放性领域的实体链接系统,如DBpedia Spotlight、Babelfy和WAT,采用全局一致性方法取得了显著成果。然而,开放性领域资源在建模特定领域知识库方面不够精准。特定领域知识库,如KnowLife和LinkedMDB可用于实体链接,但它们缺乏强大的链接结构。因此,知识无关的方法成为特定领域实体链接的一个发展方向。
多数实体链接研究在实体消歧步骤主要依赖维基百科链接结构。例如,TAGME利用维基百科锚文本进行提及检测,并基于维基百科链接结构的一致性方法对短文本进行即时标注;AIDA - light考虑全局一致性进行实体消歧,并利用YAGO2和维基百科领域层次结构先标注“简单标签”。
近年来,不依赖维基百科链接结构的知识无关方法逐渐兴起,且可在任何知识库中执行。AGDISTIS有独立于维基百科链接结构的方法,它使用命名实体识别工具检测网页中的提及,进行命名实体消歧,从表面形式选择候选实体并生成消歧图,利用基于图的HITS算法匹配最佳提及 - 实体对。RDF嵌入的实体消歧方法也取得了显著成果,DoSeR利用给定知识库生成的语义嵌入,通过个性化PageRank算法计算实体间的语义相似度。
2. 利用丰富本体结构进行消歧
2.1 本体结构的丰富与分类
本体结构的丰富是指在给定本体中添加新的本体元素