SIGHAN评测回顾-2-(2006-2010)

这篇博客概述了2006年至2010年SIGHAN中文分词评测中的方法,包括CRF和ME模型的应用,特征工程和后处理策略,如微软的CRF模型、台湾中央研究院的字符聚类、法国电信的词典校正等。随着年份的推移,无监督和复杂模型逐渐成为趋势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

         这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。

表 1-3  2006年Bakeoff评测结果

Table 1-3 Result of Bakeoff 2006

任务

最高分队伍

最高分第一作者

F1

OOV率

类型

语料

Close

CITYU

台湾中央研究院IASL

Richard Tzong-Han Tsai

0.972

0.040

CKIP

MRAS

Hai Zhao

0.958

0.042

MSRA

NLMP, 北京大学

Wang Xinhao

0.963

0.034

UPUC

MRAS

Hai Zhao

0.933

0.088

Open

CITYU

MRAS

Hai Zhao

0.977

0.040

CKIP

MRAS

Hai Zhao

0.959

0.042

MSRA

France Telecom R&D Beijing

Wu Liu

0.979

0.034

UPUC

UT Austin

Aaron J. Jacobs

0.944

0.088

表1-3中部分缩写为:台湾中央研究院Intelligent Agent Systems Lab(台湾中央研究院IASL),National Laboratory on Machine Perception (NLMP),德克萨斯大学奥斯汀分校(University of Texas at Austin,UT Austin),法国电信北京研发中心(France Telecom R&D Beijing),微软亚洲研究院(Microsoft Research Asia,MRAS)。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值