TJU自然语言处理(6):词汇获取
介绍
- 总体目标:设计一种算法和统计技术,通过对大规模文本语料库的挖掘,获取其中词语出现的各类形式,来填补现有机读词典的不足。
- 俗话来说就是人类不断发明着新词,而字典不可能及时收录,这就需要词汇获取,而词汇获取的任务是扩大传统辞典中所包含的词条的信息,完善词条各方面的属性。
词汇获取的分类
评价方法
Precision (精确率)
Recall (召回率)
F-measure (F测量值)
Fallout (漏识率)
fp:不是正确的,但你选出来了
tp:正确的而且你选出来了
fn:正确的,但没选出来
tn:不是正确的而且没选出来
- 问题:为什么不用系统正确判断所占比例(准确率)来衡量性能呢?
- 答:当tn或者tp数量非常多,以至于不在一个数量级时,会造成算出的准确率差异在小数点后几位才有区别。此时F-measure更加好一点。
动词子范畴
- 定义:动词可以被划分为不同的句法范畴,也就是说,动词可以用不同的句法形式来表示自己的语义对象。我们把根据动词所允许搭配的补足成分的类型(名词短语,介词短语等)对动词进行分类称之为子范畴。我们总是对于某个特定的补足语来谈一个动词的子范畴。
- 子范畴框架:动词可以出现于其中的一个特殊语义论元集即称为一个子范畴框架。例如:动词为Greet,和它一同出现的论元为主语和宾语,都可以看作是名词短语,所以在该句中greet的框架为Np,np。
- 为何称为子范畴:因为如果我们把可以带有某一特定语义论元集合的动词作为一类,那么我们可以通过各种不同的句法形式(syntactic means)来表达这种语义,每一种表达形式都可以称为一个子范畴。例如:
带有语义对象theme(主题)和recipient(受体)的一类动词可以有这样的子范畴,这类动词既可以使用宾语和介词短语来表示他们的语义论元,如donate,又可以使用双宾语结构来表示,每种表示形式都是这类动词的一个子范畴。