07-轻松实现文字转语音 - Coqui TTS部署实践

anda0109

已于 2025-04-28 10:12:39 修改

阅读量1k

点赞数 23

分类专栏： AI应用探索文章标签： AI 人工智能 deepseek openai chatgpt

于 2025-04-18 11:10:29 首次发布

本文链接：https://blog.csdn.net/anda0109/article/details/147323666

版权

AI应用探索专栏收录该内容

11 篇文章

订阅专栏

废话不多说，咱们直接开始吧！

环境安装

1、创建python虚拟环境

conda create --name env_coqui python=3.10
conda activate env_coqui

2、安装tts

pip install TTS

3、查看模型列表

tts --list_models
(env_coqui) PS D:\work\ai\tts\Coqui> tts --list_models

Name format: type/language/dataset/model
1: tts_models/multilingual/multi-dataset/xtts_v2
2: tts_models/multilingual/multi-dataset/xtts_v1.1
3: tts_models/multilingual/multi-dataset/your_tts
4: tts_models/multilingual/multi-dataset/bark
5: tts_models/bg/cv/vits
6: tts_models/cs/cv/vits
7: tts_models/da/cv/vits
8: tts_models/et/cv/vits
9: tts_models/ga/cv/vits
10: tts_models/en/ek1/tacotron2
11: tts_models/en/ljspeech/tacotron2-DDC
12: tts_models/en/ljspeech/tacotron2-DDC_ph
13: tts_models/en/ljspeech/glow-tts
14: tts_models/en/ljspeech/speedy-speech
15: tts_models/en/ljspeech/tacotron2-DCA
16: tts_models/en/ljspeech/vits
17: tts_models/en/ljspeech/vits–neon
18: tts_models/en/ljspeech/fast_pitch
19: tts_models/en/ljspeech/overflow
20: tts_models/en/ljspeech/neural_hmm
21: tts_models/en/vctk/vits

测试预训练模型

选择一个预训练模型（例如 tts_models/en/ljspeech/tacotron2-DDC），并测试其效果：

tts --text "Hello, this is a test of Coqui TTS." --model_name tts_models/en/ljspeech/tacotron2-DDC --vocoder_name vocoder_models/universal/libri-tts/wavegrad --out_path output.wav

上述命令运行完成后，在当前目录下生成了output.wav文件，点击可以播放。

写一个web页面

为了方便使用，我们使用flask框架做一个简单的web应用。

一段简单的python代码：

tts_demo.py
from flask import Flask, request, send_file, render_template
from TTS.api import TTS
import os
import torch

app = Flask(__name__)
# 修复 TTS 模型和 vocoder 的设置方式
from TTS.utils.radam import RAdam
from collections import defaultdict
with torch.serialization.safe_globals([RAdam, defaultdict, dict]):
    tts = TTS(model_name="tts_models/zh-CN/baker/tacotron2-DDC-GST")

@app.route("/", methods=["GET"])
def index():
    return render_template("index.html")

@app.route("/synthesize", methods=["POST"])
def synthesize():
    text = request.json.get("text")
    output_path = "output.wav"
    tts.tts_to_file(text=text, file_path=output_path)
    return send_file(output_path, mimetype="audio/wav")

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=5000)

一个无比简洁优雅的web页面~

templates/index.html
<!DOCTYPE html>
<html lang="zh">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>文字转语音</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            max-width: 800px;
            margin: 0 auto;
            padding: 20px;
            line-height: 1.6;
        }
        h1 {
            text-align: center;
            margin-bottom: 30px;
            color: #333;
        }
        .container {
            background-color: #f9f9f9;
            border-radius: 8px;
            padding: 20px;
            box-shadow: 0 4px 8px rgba(0, 0, 0, 0.1);
        }
        textarea {
            width: 100%;
            height: 150px;
            margin-bottom: 20px;
            padding: 10px;
            border: 1px solid #ddd;
            border-radius: 4px;
            resize: vertical;
        }
        button {
            background-color: #4CAF50;
            color: white;
            border: none;
            padding: 10px 20px;
            text-align: center;
            font-size: 16px;
            cursor: pointer;
            border-radius: 4px;
        }
        button:hover {
            background-color: #45a049;
        }
        .audio-container {
            margin-top: 20px;
        }
    </style>
</head>
<body>
    <h1>文字转语音</h1>
    <div class="container">
        <textarea id="textInput" placeholder="请输入要转换为语音的文字..."></textarea>
        <button id="convertBtn">转换为语音</button>
        <div class="audio-container">
            <audio id="audioOutput" controls style="display: none;"></audio>
        </div>
    </div>

    <script>
        document.getElementById('convertBtn').addEventListener('click', async () => {
            const text = document.getElementById('textInput').value;
            if (!text) {
                alert('请输入文字内容！');
                return;
            }
            
            try {
                // 显示加载中状态
                document.getElementById('convertBtn').disabled = true;
                document.getElementById('convertBtn').textContent = '处理中...';
                
                // 发送请求到后端
                const response = await fetch('/synthesize', {
                    method: 'POST',
                    headers: {
                        'Content-Type': 'application/json',
                    },
                    body: JSON.stringify({ text })
                });
                
                if (!response.ok) {
                    throw new Error('转换失败');
                }
                
                // 获取音频blob
                const blob = await response.blob();
                const audioUrl = URL.createObjectURL(blob);
                
                // 播放音频
                const audioElement = document.getElementById('audioOutput');
                audioElement.src = audioUrl;
                audioElement.style.display = 'block';
                audioElement.play();
            } catch (error) {
                alert('转换失败：' + error.message);
            } finally {
                // 恢复按钮状态
                document.getElementById('convertBtn').disabled = false;
                document.getElementById('convertBtn').textContent = '转换为语音';
            }
        });
    </script>
</body>
</html>

运行程序：python demo.py
然后在浏览器输入访问地址：http://localhost:5000/，就可以将任意的文字转为语音啦！
在这里插入图片描述