基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 跨语言实验观察

该博客介绍了使用RTVC-7和Tuned-GE2E-EarSpeech模型进行跨语言TTS实验的过程,包括选择参考语音、文本和进行主观观察。实验中发现Attention错误和性别转换问题,可能由于说话人覆盖不足。PCA分析用于展示Speaker Embedding分布,建议通过增加数据或Fine-tune ASV来改善效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0. 说明

把 LJSpeech 的作为 reference, 以及 DataBaker EN, 还有 VCTK 的

1. 选取 Reference Speech

1.1. 选取音频

  1. 前 6 个是标贝双语, 分别是 2 个中, 2 个英, 2 个混合
  2. 然后两个是 LJSpeech
  3. 最后四个来源于 VCTK
  4. 注意, 采样率有的是 16k, 有的是 48k

1.2. 使用 GE2E Encoder 提取 Speaker Embedding

逻辑在: /ceph/home/hujk17/Tuned-GE2E-EarSpeech/FaPig_GE2E_Cross_synthesizer.py

 

2. 选取文本

  • ti3 yu4 zong3 ju2 gai1 gan4 de5 rang4 ti3 yu4 zong3 ju2 gan4
  • you3 liu4 shi2 jia1 gong1 si1 wei4 xin1 xing1 chan3 ye4 shang4 shi4 gong1 si1
  • xing2 cheng2 ji4 you3 fen1 gong1 you4 xiang1 hu4 pei4 he2 de5 jian1 guan3 ji1 zhi4
  • wo3 xi3 huan1 ni3 zhou1 cui4 bao4 zao4 ge1
  • xie4 xie4 da4 jia1 lin2 ting1 yu3 yin1 he2 cheng2 shi2 yan4

3. 主观大体观察实验

https://drive.google.com/file/d/16QBHuLTM-4FGyMZlMbwpmWZnzgsnjxx0/view?usp=sharing

总体来说效果非常好!

3.1. 有些说话人 Attention 有错

可能是 GE2E 太过精细导致

3.2. 有些说话人女性变男性

可能是 AISHELL-3 覆盖的说话人不够了

4. Speaker Emb 观察实验

目标是画出下面的图:

并且补充上文字的分析:

 

4.1. 用 PCA 来观察

4.2. 画图数据来源

4.2.1. samples_Cross

  • (2 + 2 + 2) + 2 + 2 + 2 个说话人
  • 音频在: /ceph/home/hujk17/Tuned-GE2E-EarSpeech/log_FaPig_GE2E_syn_wavs_Cross
  • Speaker Emb 在: /ceph/home/hujk17/Tuned-GE2E-EarSpeech/samples_Cross

 

4.2.2. Aishell-3 samples

  • /ceph/home/hujk17/npy-EarSpeech-HCSI-Data/dereverb_npy 文件夹中, 一共 174 个人 (本来 218 个人, 可能是实验室小伙伴去噪声时候删掉了一些), 每个文件夹取 100/16 句 
  • 能不能获得 Aishell-3 说话人的性别?

4.3. 代码

参考来源: https://blog.csdn.net/u013634684/article/details/49646311

谢谢作者~

 

4.4. SPK Emb 分析

https://drive.google.com/file/d/16QBHuLTM-4FGyMZlMbwpmWZnzgsnjxx0/view?usp=sharing

 

 

4.5. 解决办法

  • 训 Tacotron 时, 用上语料, 允许 ASV Fine-tune (不太好做到)
  • 追加 Aishell-3 和 VCTK 的数据, 去继续训练 ASV (推荐, 游哥推荐~). 其实有两个双语 ASR 语料: HK_ 和 SEMA
  • 不做任何改动, 然后找到男中心, 女中心, 来一个说话人, 使用他/她所有句子中最接近男中心/女中心的句子; 甚至直接找邻近的向量替换掉 (有些糊弄)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值