多分类器组合方法在单词识别中的应用
在当今的模式识别领域,多分类器组合方法已成为提高识别准确率的重要手段。本文将深入探讨不同输出类型的分类器组合方法,包括抽象级别输出、排名列表输出和测量级别输出,并分析它们在实际应用中的效果。
1. 单词识别器的顺序组合
1.1 识别器性能
在单词识别中,CMR(字符级识别器)和WMR(单词级识别器)是两种常用的识别器。CMR的计算复杂度高于WMR,但两者在方法和特征使用上具有足够的正交性,因此适合组合使用。训练和测试数据集来自邮政分拣机捕获的邮件图像,包括街道名称图像和相应的扩展词典。WMR和CMR的正确率均为78%,错误率分别为2.5%和6%。
1.2 组合设计
为了提高整体速度,设计时考虑尽早做出接受或拒绝的决策。采用分层策略调用分类器,即只有在WMR无法做出决策时才调用较慢的CMR;同样,只有在CMR无法做出决策时才尝试组合分类器的决策。通过词典缩减可以提高效率和系统性能,例如当原始词典大小为10时,取前5个选择,WMR的正确率超过99%,此时可以使用缩减后的词典(大小为5)调用CMR。PRC(概率规则分类器)在邮政测试集上的错误率低于2%,CMR的调用率接近三分之一。
1.3 决策组合
组合策略是将WMR和CMR顺序级联。未被拒绝或高置信度接受的图像将传递给CMR。决策时需要考虑以下三个问题:
1. PRC的接受决策可以基于WMR和CMR返回的个体置信度。
2. 当分类器在顶级选择上达成一致时,可以高置信度接受,但如果词典存在漏洞,该策略可能有缺陷。
3. 当词典较小且分类器较少时,可能所有分类器都投票给同一条目,但