TJU自然语言处理(6):词汇获取

介绍

  • 总体目标:设计一种算法和统计技术,通过对大规模文本语料库的挖掘,获取其中词语出现的各类形式,来填补现有机读词典的不足。
  • 俗话来说就是人类不断发明着新词,而字典不可能及时收录,这就需要词汇获取,而词汇获取的任务是扩大传统辞典中所包含的词条的信息,完善词条各方面的属性

词汇获取的分类

在这里插入图片描述

评价方法

Precision (精确率)
Recall (召回率)
F-measure (F测量值)
Fallout (漏识率)
在这里插入图片描述
fp:不是正确的,但你选出来了
tp:正确的而且你选出来了
fn:正确的,但没选出来
tn:不是正确的而且没选出来
在这里插入图片描述

  • 问题:为什么不用系统正确判断所占比例(准确率)来衡量性能呢?
  • 答:当tn或者tp数量非常多,以至于不在一个数量级时,会造成算出的准确率差异在小数点后几位才有区别。此时F-measure更加好一点。

动词子范畴

  • 定义:动词可以被划分为不同的句法范畴,也就是说,动词可以用不同的句法形式来表示自己的语义对象。我们把根据动词所允许搭配的补足成分的类型(名词短语,介词短语等)对动词进行分类称之为子范畴。我们总是对于某个特定的补足语来谈一个动词的子范畴。
  • 子范畴框架:动词可以出现于其中的一个特殊语义论元集即称为一个子范畴框架。例如:动词为Greet,和它一同出现的论元为主语和宾语,都可以看作是名词短语,所以在该句中greet的框架为Np,np。
  • 为何称为子范畴:因为如果我们把可以带有某一特定语义论元集合的动词作为一类,那么我们可以通过各种不同的句法形式(syntactic means)来表达这种语义,每一种表达形式都可以称为一个子范畴。例如:
    带有语义对象theme(主题)和recipient(受体)的一类动词可以有这样的子范畴,这类动词既可以使用宾语和介词短语来表示他们的语义论元,如donate,又可以使用双宾语结构来表示,每种表示形式都是这类动词的一个子范畴。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值