19k Star! 最快语音克隆方案 20宝秒，FishSpeech1.5 Windows11本地部署教程(附加速和API)

原创已于 2025-02-17 14:45:17 修改 · 1.8k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #自然语言处理 #深度学习

于 2025-02-17 14:31:48 首次发布

大模型专栏收录该内容

2 篇文章

订阅专栏

FishSpeech 1.5 Windows 11 本地部署完全指南

一、环境准备

1.1 硬件要求

GPU：推荐 NVIDIA 显卡（RTX 3060 及以上，显存 ≥ 12GB）
CPU：支持 AVX2 指令集的 Intel/AMD 处理器（i5 第 8 代或 Ryzen 5 3000 系列以上）
内存：≥ 16GB
存储：预留 ≥ 50GB 空间（模型文件较大）

1.2 系统要求

Windows 11 21H2 或更高版本
已启用开发者模式（设置 → 隐私和安全性 → 开发者选项）

二、基础环境配置

2.1 安装 NVIDIA 驱动与 CUDA

更新显卡驱动至最新版本（通过 GeForce Experience 或官网）
安装 CUDA 11.8：
- 下载地址：CUDA Toolkit 11.8
- 安装时勾选 CUDA 和 CUDA Development Tools
验证安装：
```
nvcc --version
```

2.2 安装 Python 环境

下载 Python 3.10.6（推荐使用官方构建）：
- 官网下载地址：Python 3.10.6
- 安装时务必勾选 Add Python to PATH
安装虚拟环境工具：
```
pip install virtualenv
```

三、项目部署流程

3.1 获取 FishSpeech 1.5 代码

克隆官方仓库：

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

2. 切换到 v1.5 分支：

git checkout release/1.5

3.2 创建虚拟环境

virtualenv venv --python=python3.10
venv\Scripts\activate

3.3 安装依赖库

安装 PyTorch 2.0 + CUDA 11.8：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

2安装项目依赖：

pip install -r requirements.txt

3. 安装附加组件：

pip install sounddevice pydub webrtcvad

3.4 下载预训练模型

从官方渠道获取模型文件（如 fish-speech-1.5.pt），放置于 models/ 目录
下载示例配置文件 config.yaml 并修改模型路径：

model_path: "./models/fish-speech-1.5.pt"

四、运行语音合成

4.1 启动推理服务

python tools/api.py --config config.yaml --device cuda

4.2 使用示例脚本

创建 demo.py：

import requests

text = "欢迎使用FishSpeech，这是一段测试语音。"
response = requests.post(
    "http://localhost:8000/tts",
    json={"text": text, "speaker": "default"}
)

with open("output.wav", "wb") as f:
    f.write(response.content)
print("语音生成完成！")

运行脚本：

python demo.py

五、高级配置

5.1 多说话人支持

在 config.yaml 中添加说话人列表：

speakers:
  - name: "speaker1"
    voice_dir: "./data/speaker1/"
  - name: "speaker2"
    voice_dir: "./data/speaker2/"

准备至少 10 条参考音频（每个说话人）
修改批处理大小（根据显存调整）：

5.2 性能优化

batch_size: 4  # 默认值，显存不足时可降低至2

开启半精度推理：

六、常见问题排查

6.1 CUDA Out of Memory

降低 batch_size
添加 --precision fp16 启动参数
重启释放显存占用

6.2 依赖冲突

使用 pip check 检查冲突，通过 pip install --upgrade 更新冲突包版本。

6.3 音频生成失败

检查模型路径是否正确
确保配置文件编码为 UTF-8
查看日志文件 logs/api.log

七、注意事项

首次运行需联网下载必要资源
推荐使用 VS Code 作为开发环境
模型文件需遵守开源协议，禁止商用

通过本教程，您已完成 FishSpeech 1.5 的完整部署。建议定期拉取官方仓库更新以获取最新功能修复。如需训练自定义模型，需额外准备至少 10 小时标注语音数据。