SPARK-TTS

最新推荐文章于 2025-07-26 09:35:28 发布

林林宋

最新推荐文章于 2025-07-26 09:35:28 发布

阅读量665

点赞数 3

CC 4.0 BY-SA版权

文章标签：人工智能

abstract

在这里插入图片描述

只用单个码本，使用BiCodec’s decoder 将codes还原音频
并且可以实现合成音频的属性控制【gender, pitch level, and speed level 】，如果有属性控制，会使用COT的方式预测细粒度的【gender, pitch level, and speed level，semantic token】信息，如果没有属性控制，从prompt audio中提取global的信息；
有一个预计开源的数据集：VoxBox 中的每个音频文件都标有性别、音高和速度。此外，我们还对文本质量较低的数据集执行数据清理。数据清理后，VoxBox 包含 470 万个音频文件，来自 29 个开放数据集，总计 102.5k 小时的语音数据。

在这里插入图片描述

wav2vec2.0 的11th, 14th, and 16th 特征，average之后提取semantic token。前两层特征和word 相关度比较高，最后一层和phonemes相关度比较高；FSQ 量化，为了保证训练稳定性，初始若干step，送给decoder 的vq-embedding，是encoder pooling的结果。

两个级别的量化表征
- Coarse-Grained: including gender, pitch , and speed (都是离散的5级分类);
- Fine-Grained: Attribute values enabling precise control over pitch and speed, which are quantized by rounding to the nearest integer during tokenization.