基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

本文介绍了作者在学习知识图谱问答系统(KBQA)时,使用NLPCC2016KBQA数据集进行实验的情况。数据集包含14,609个训练问答对和9870个测试问答对,知识库拥有650万个实体和4300万条三元组。作者指出了数据集中存在的实体和属性歧义问题,以及实体链接检索的挑战。实验中采用了BERT模型进行实体识别和属性抽取,并分享了实验结果。" 131988484,9311708,Matlab实现射频噪声干扰信号分析,"['matlab', '信号处理', '电子战', '干扰技术']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

640


作者丨郭雅志

学校丨北京化工大学

研究方向丨NLP、知识图谱、对话/问答系统


本人认为学习一样东西,直接上手跑实验是最有效提升的方法之一。看了那么多的理论介绍文章,抽象的说辞,最后还是似懂非懂。所以,直接上手数据集跑实验,与理论结合,能有更深刻的了解。同时也记录下学习 KBQA 的过程,也希望对同入门的同学有些帮助。


引言


本人最近在做 KBQA 相关的的工作,有些大致的了解和想法后希望能够在实验中学习更多。 


目前研究的 KBQA 暂时专注在简单知识库问答上:即根据一个问题,抽出一条三元组,生成 Sparql 语句,进而进行知识图谱查询返回答案。 


最终选择了 NLPCC2016KBQA 数据集,基线模型采用 BERT。


数据集介绍


NLPCC 全称自然语言处理与中文计算会议(The Conference on Natural Language Processing and Chinese Computing),它是由中国计算机学会(CCF)主办的 CCF 中文信息技术专业委员会年度学术会议,专注于自然语言处理及中文计算领域的学术和应用创新。 


此次使用的数据集来自 NLPCC ICCPOL 2016 KBQA 任务集,其包含 14,609 个问答对的训练集和包含 9870 个问答对的测试集。并提供一个知识库,包含 6,502,738 个实体、 587,875 个属性以及 43,063,796 个三元组。


知识库文件中每行存储一个事实(fact),即三元组 ( 实体、属性、属性值) 。各文件统计如下:


640?wx_fmt=png


知识库样例如下所示:


640?wx_fmt=png


原数据中本只有问答对(question-answer),并无标注三元组(triple),本人所用问答对数据来自该比赛第一名的预处理:


http://github.com/huangxiangzhou/NLPCC2016KBQA


构造 Triple 的方法为从知识库中反向查找答案,根据问题过滤实体,最终筛选得到,也会存在少量噪音数据。该 Triple 之后用于构建实体识别和属性选择等任务的数据集。


问答对样例如下所示:


640?wx_fmt=png


数据集本身存在的问题


知识库实体间的歧义

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值