SPARK-TTS

abstract

在这里插入图片描述

  • 只用单个码本,使用BiCodec’s decoder 将codes还原音频
  • 并且可以实现合成音频的属性控制【gender, pitch level, and speed level 】,如果有属性控制,会使用COT的方式预测细粒度的【gender, pitch level, and speed level,semantic token】信息,如果没有属性控制,从prompt audio中提取global的信息;
  • 有一个预计开源的数据集:VoxBox 中的每个音频文件都标有性别、音高和速度。此外,我们还对文本质量较低的数据集执行数据清理。数据清理后,VoxBox 包含 470 万个音频文件,来自 29 个开放数据集,总计 102.5k 小时的语音数据。

method

speech tokenizer

在这里插入图片描述

  • wav2vec2.0 的11th, 14th, and 16th 特征,average之后提取semantic token。前两层特征和word 相关度比较高,最后一层和phonemes相关度比较高;FSQ 量化,为了保证训练稳定性,初始若干step,送给decoder 的vq-embedding,是encoder pooling的结果。

Attribute Tokenizer

  • 两个级别的量化表征
    • Coarse-Grained: including gender, pitch , and speed (都是离散的5级分类);
    • Fine-Grained: Attribute values enabling precise control over pitch and speed, which are quantized by rounding to the nearest integer during tokenization.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值