命名实体识别NER论文调研

本文调研了命名实体识别(NER)的论文,重点关注如何利用词典信息和图结构提升效果。文章提及了Lattice LSTM、WC-LSTM、多图结构的图神经网络模型等,指出这些方法在处理中文NER任务时,特别是在金融新实体识别中的应用和局限性,并对比了不同模型在数据集上的实验结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


因为NER任务与笔者之前做的CCF互联网金融新实体识别竞赛相关,所以这两个月也调研了一些NER的算法,这两年的NER算法思想主要集中在将词典信息融入训练过程,达到减少中文语义歧义的效果。

CCF互联网金融新实体识别竞赛

https://www.datafountain.cn/competitions/361

 

当前竞赛NER任务的baseline

BERT + BILSTM + CRF

BERT + IDCNN[1] + CRF:IDCNN可以大致理解为CNN + pooling + upsampling,可以并行化运算,训练速度会比BILSTM快很多,但不会跟CNN一样,CNN切换pooling与upsampling会损失一部分信息。(pooling减小图像尺寸增大感受野, upsampling增大图像尺寸还原原始尺寸,两者在运算过程中不可逆,因此会导致一部分信息损失。)

IDCNN原理:本质和CNN一样,但是通过在卷积核之间增加“空洞”(即0),使IDCNN的卷积在不需要POOLing的情况下增加感受野,增大看到信息的范围。

缺点:1)会丢失局部信息; 2)虽说可以看得比较远,但是有时候远距离的信息并没有相关性。

应用场景:1)需要全局信息的图像任务; 2)需要解决长距离信息依赖的语音与文本任务。

目前调研了13篇NER论文,主要是看哪些论文能否嵌入金融新实体竞赛的baseline框架,达到提高代码复用率且实验结果佳的效果

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值