SIGHAN评测回顾-2-(2006-2010)

最新推荐文章于 2018-12-27 12:25:18 发布

原创

最新推荐文章于 2018-12-27 12:25:18 发布 · 4.8k 阅读

7 ·

CC 4.0 BY-SA版权

这篇博客概述了2006年至2010年SIGHAN中文分词评测中的方法，包括CRF和ME模型的应用，特征工程和后处理策略，如微软的CRF模型、台湾中央研究院的字符聚类、法国电信的词典校正等。随着年份的推移，无监督和复杂模型逐渐成为趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述，不详细不精确，个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。

表 1-3 2006年Bakeoff评测结果

Table 1-3 Result of Bakeoff 2006

任务		最高分队伍	最高分第一作者	F1	OOV率
类型	语料	最高分队伍	最高分第一作者	F1	OOV率
Close	CITYU	台湾中央研究院IASL	Richard Tzong-Han Tsai	0.972	0.040
	CKIP	MRAS	Hai Zhao	0.958	0.042
	MSRA	NLMP, 北京大学	Wang Xinhao	0.963	0.034
	UPUC	MRAS	Hai Zhao	0.933	0.088
Open	CITYU	MRAS	Hai Zhao	0.977	0.040
	CKIP	MRAS	Hai Zhao	0.959	0.042
	MSRA	France Telecom R&D Beijing	Wu Liu	0.979	0.034
	UPUC	UT Austin	Aaron J. Jacobs	0.944	0.088

表1-3中部分缩写为：台湾中央研究院Intelligent Agent Systems Lab（台湾中央研究院IASL），National Laboratory on Machine Perception (NLMP)，德克萨斯大学奥斯汀分校（University of Texas at Austin，UT Austin），法国电信北京研发中心（France Telecom R&D Beijing），微软亚洲研究院（Microsoft Research Asia，MRAS）。