语音合成论文优选:自动打分系统MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

本文介绍了一种新的MOS预测系统MBNet,用于更准确地估计合成语音的质量。通过结合平均得分和评分者偏差,该系统旨在减少手动打分所需的人力和时间。与现有系统MOSNet相比,MBNet在实验中表现更优。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

本文是中国科学技术大学在2021.02.27更新的文章,主要工作是对合成的音频进行MOS值得预测,从而减少大量劳动力,具体的文章链接

https://arxiv.org/pdf/2103.00110.pdf

(最近想搭建模型自动测试系统,因此看了MOS自动打分系统相关文章,感觉主要还是数据)

1 研究背景

我们知道语音合成系统的好坏最直观的判断是合成的音频质量好坏,这就是我们常用的MOS( mean opinion score)值,但MOS值得打分需要许多领域内的人员进行打分,这需要昂贵的人力资源和时间开销,因此自动打分MOS的系统被提出,比如MOSNET,AutoNET等等。但以前的系统训练都是一条语句对应一个均值,这忽略了每个打分人之间的偏差,本系统就是在现有的系统上增加变差模块,更好的获取MOS值。

2 详细设计

其实系统很简单,如图1所示:Mean score和judge score。mean score跟以前一样,一条一句对应一个mos值,judge score对每位打分人员打的分与均值之间的偏差进行判断,整个句子的MOS值为mean score + judge Score。系统的参数为图3所示。(这样的系统感觉还是数据最可贵)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值