
NLP
文章平均质量分 57
iteye_15311
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[转]文本分类入门(番外篇)特征选择与特征权重计算的区别
原文地址:http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目...原创 2011-07-03 19:49:11 · 157 阅读 · 0 评论 -
openNLP(1)_分词
前端时间看了一下openNLP,用了一下,把自己的体会写下来。。首先,openNLP是关于自然语言处理的开源项目,可以用eclipse作为第三方插件,去它的官方网站http://incubator.apache.org/opennlp/index.html下载需要的包,或者直接去http://sourceforge.net/projects/opennlp/ 下载。导入三个包:maxent-3...2011-01-22 22:57:58 · 384 阅读 · 0 评论 -
Penn Treebank Tags做点小翻译 (上篇)
前言 :最近在研究自然语言处理,搞的很浅,然后下了openNLP,实现了分词和分句,现在要做词性标注,结果openNLP参照的是这个Penn Treebank Tags,所以没办法要看懂词性标注的结果,只有先看懂这个Penn Treebank Tags了。附注:我下的是英文的ME模型(Maxent model最大熵模型)实现的词性标注,openNLP还有感知模型(Perceptron mode...2011-01-22 23:00:25 · 369 阅读 · 0 评论 -
Penn Treebank Tags做点小翻译 (下篇)
二、功能标签1、形式/功能差异-ADV(副词作用的) - 标记成分不同于ADVP 或者是PP 当它当副词使用时。但是,成分修改一个ADVP通常没有-ADV。如果一个更加特别的标签(例如-TMP)可用,那么它将会单独使用,-ADV是暗含的意思,见(状语)这一节。- NOM(名词性的)标记**和动名词当它们是以相同的方式使用的时候。2、语法作用-DTV (与格(名词、代词或...2011-01-22 23:01:09 · 233 阅读 · 0 评论 -
统计自然语言处理基础——学习摘要(1)
句子边界的启发式检测算法:(1)在.?!(和可能的;:-)出现位置之后加一个假设的句子边界。(2)如果假设边界后面有引号,那么把假设边界移到引号后面。(3)除去以下情况中句点的边界资格: -如果在句点之前是一个不总出现在句子末尾的众所周知的缩写形式,而且通常后面会跟一 个大写的名字,例如Prof.或者vs.。 -如果句点前面是一个众所周知的缩写形式...原创 2011-02-17 20:23:58 · 94 阅读 · 0 评论 -
统计自然语言处理基础_聚类
聚类对象的描述需要建立数据表示模型,聚类算法需要定义在包(bag)的概念之上,包允许相同的元素存在。在统计自然语言处理中,聚类算法有两个重要的用途,第一个重要用途是用于试探性数据分析(exploratory data analysis ,EDA)。对于任何处理“量化”数据的应用来说,试探性数据分析是非常重要的方法。当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的...原创 2011-02-26 11:10:32 · 214 阅读 · 0 评论 -
利用k-menas来解释EM算法
这里面怎么用公式???我实在没不知道啊。只能用附件。杯具原创 2011-02-27 13:28:00 · 114 阅读 · 0 评论 -
数据挖掘概念与技术_文本挖掘
1、文本检索的基本度量——[color=red]准确率和召回率[/color][url]http://fuhao-987.iteye.com/blog/930140[/url]2、文本检索方法——[color=red]向量空间模型[/color][url]http://fuhao-987.iteye.com/blog/930988[/url]3、文本索引技术 [color=red]...原创 2011-04-05 16:53:30 · 251 阅读 · 0 评论