
NLPIR
码农无奇
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中科院分词系统 初始化失败
报错:初始化失败 Invalid memory access JAVA原因 :Data文件夹的NLPIR.user文件过期,需要到github上下载最近的。这里附上github地址:https://github.com/NLPIR-team/NLPIR原创 2017-05-04 11:10:33 · 974 阅读 · 0 评论 -
中科院分词系统大致流程
转载自:http://fay19880111-yeah-net.iteye.com/blog/1464110 ictalas4j用到的字典主要是下面的三个:coreDict、biGramDict、nr。coreDict记录了6768个词块,里面有对应的词频和句柄(用于词性标注);biGramDict里面记录的是词和词之间的关系,也就是相邻两个词一起出现的频率;nr记录的是转载 2017-04-18 16:19:25 · 1927 阅读 · 0 评论