
NER
文章平均质量分 69
NER
DecafTea
定量,归类(框架),融合,体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HMM代码 - HanLP
HanLP HMM 代码,包括概率计算(计算观测序列的条件概率)、学习(最有可能的模型参数)、预测问题(给定观测序列和模型参数,最有可能的状态序列)。 /* * <author>Han He</author> * <email>[email protected]</email> * <create-date>2018-06-09 7:47 PM</create-date> * * <copyright file="HiddenM原创 2021-03-31 14:54:50 · 533 阅读 · 0 评论 -
LSTM+CRF for NER
1. 词语特征表示 代码上,下面针对的都是1个batch(多个序列)进行优化时,如何获取batch中的不同序列(单词or句子)中的特征。 1.1 提取字符级别特征: 将单词看成序列,序列由字符构成,字符看成序列不同时刻的观测输入。 1)CNN for Character-level Representation 2)Bi-LSTM for Character-level Representation 下图是使用Bi-LSTM提取字符级别的特征。对于某个单词wi(例如CAT),w=[c1,…,cp],每个原创 2021-02-24 11:48:49 · 277 阅读 · 0 评论 -
NER实战(数据处理+模型分析(词典匹配,统计ML,DL)+评价标准+模型融合)
0、NER 简介 多特征:实体识别不是一个特别复杂的任务,不需要太深入的模型,那么就是加特征,特征越多效果越好,所以字特征、词特征、词性特征、句法特征、KG表征等等的就一个个加吧,甚至有些中文 NER 任务里还加入了拼音特征、笔画特征。。?心有多大,特征就有多多 多任务:很多时候做 NER 的目的并不仅是为了 NER,而是服务于一个更大的目标或系统,比如信息抽取、问答系统等等。如果把整个大任务做一个端到端的模型,就需要做成一个多任务模型,把 NER 作为其中一个子任务;另外,单纯的 NER 也可以做成多任务原创 2021-02-18 10:22:34 · 3843 阅读 · 3 评论 -
命名体识别(工业级实战经验+代码)
reference:DASOU https://zhuanlan.zhihu.com/p/148492889 https://github.com/DA-southampton/ner 1. 关键词匹配 TF-IDF 再根据效果和自己的数据做相关优化 又对数据做了补充,我在数据调研之后发现对于一部分领域文本,比如说娱乐领域,明星领域,财经领域等等吧,这些领域的文本很有特色,一般人名/地名/公司名称/书名/电影名称都可以很好的表示文本关键信息。 细节:扩充关键词词典,不同领域关键词有何区别,匹配算法如何高效执原创 2021-02-05 15:36:00 · 697 阅读 · 0 评论