随着深度学习在过去十年间的蓬勃发展,自动语音识别(ASR)技术获得了广泛关注,促使大量公开可用的ASR系统应运而生,并正积极融入我们的日常生活。然而,由于各种细微差异的存在,对这些ASR系统进行公正且可复现的评估面临挑战。本文介绍了SpeechColab评测平台——一个专为ASR评估设计的通用开源平台。通过该平台:
-
我们报告了一项全面的基准测试,揭示了当前ASR系统的最新技术全景,涵盖多个开源模型与商业服务;
-
我们量化了评分流程中不同细微差异对最终基准结果的影响,包括大写、标点、感叹词、缩略形式、同义词使用、复合词等问题,这些因素在端到端ASR系统转型背景下显得尤为重要;
-
受Kolmogorov复杂度和归一化信息距离(NID)的启发,我们提出并讨论了对传统字/词Token错误率(TER)指标的改进型修正——mTER,该改进指标具有归一化特性,且在参考文本与识别文本之间保持对称性。
平台访问地址:https://github.com/SpeechColab/Leaderboard
论文引用:
J. Du, J. Li, G. Chen, and W.-Q. Zhang, “SpeechColab leaderboard: An open-source platform for automatic speech recognition evaluation,” Computer Speech & Language, vol. 94, art. no. 101805, Nov. 2025, doi: 10.1016/j.csl.2025.101805.
论文免费下载地址(截止到2025年6月18日):
https://authors.elsevier.com/a/1l0DJ39HpStari