FishSpeech 1.5 Windows 11 本地部署完全指南
一、环境准备
1.1 硬件要求
-
GPU:推荐 NVIDIA 显卡(RTX 3060 及以上,显存 ≥ 12GB)
-
CPU:支持 AVX2 指令集的 Intel/AMD 处理器(i5 第 8 代或 Ryzen 5 3000 系列以上)
-
内存:≥ 16GB
-
存储:预留 ≥ 50GB 空间(模型文件较大)
1.2 系统要求
-
Windows 11 21H2 或更高版本
-
已启用开发者模式(设置 → 隐私和安全性 → 开发者选项)
二、基础环境配置
2.1 安装 NVIDIA 驱动与 CUDA
-
更新显卡驱动至最新版本(通过 GeForce Experience 或 官网)
-
安装 CUDA 11.8:
-
下载地址:CUDA Toolkit 11.8
-
安装时勾选
CUDA
和CUDA Development Tools
-
-
验证安装:
nvcc --version
2.2 安装 Python 环境
-
下载 Python 3.10.6(推荐使用官方构建):
-
官网下载地址:Python 3.10.6
-
安装时务必勾选
Add Python to PATH
-
-
安装虚拟环境工具:
pip install virtualenv
三、项目部署流程
3.1 获取 FishSpeech 1.5 代码
-
克隆官方仓库:
git clone https://github.com/fishaudio/fish-speech.git cd fish-speech
2. 切换到 v1.5 分支:
git checkout release/1.5
3.2 创建虚拟环境
virtualenv venv --python=python3.10
venv\Scripts\activate
3.3 安装依赖库
-
安装 PyTorch 2.0 + CUDA 11.8:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
2安装项目依赖:
-
pip install -r requirements.txt
3. 安装附加组件:
pip install sounddevice pydub webrtcvad
3.4 下载预训练模型
-
从官方渠道获取模型文件(如
fish-speech-1.5.pt
),放置于models/
目录 -
下载示例配置文件
config.yaml
并修改模型路径: -
model_path: "./models/fish-speech-1.5.pt"
四、运行语音合成
4.1 启动推理服务
python tools/api.py --config config.yaml --device cuda
4.2 使用示例脚本
创建 demo.py
:
import requests
text = "欢迎使用FishSpeech,这是一段测试语音。"
response = requests.post(
"http://localhost:8000/tts",
json={"text": text, "speaker": "default"}
)
with open("output.wav", "wb") as f:
f.write(response.content)
print("语音生成完成!")
运行脚本:
python demo.py
五、高级配置
5.1 多说话人支持
-
在
config.yaml
中添加说话人列表: -
speakers: - name: "speaker1" voice_dir: "./data/speaker1/" - name: "speaker2" voice_dir: "./data/speaker2/"
-
准备至少 10 条参考音频(每个说话人)
-
修改批处理大小(根据显存调整):
-
5.2 性能优化
batch_size: 4 # 默认值,显存不足时可降低至2
开启半精度推理:
六、常见问题排查
6.1 CUDA Out of Memory
-
降低
batch_size
-
添加
--precision fp16
启动参数 -
重启释放显存占用
6.2 依赖冲突
使用 pip check
检查冲突,通过 pip install --upgrade
更新冲突包版本。
6.3 音频生成失败
-
检查模型路径是否正确
-
确保配置文件编码为 UTF-8
-
查看日志文件
logs/api.log
七、注意事项
-
首次运行需联网下载必要资源
-
推荐使用 VS Code 作为开发环境
-
模型文件需遵守开源协议,禁止商用
通过本教程,您已完成 FishSpeech 1.5 的完整部署。建议定期拉取官方仓库更新以获取最新功能修复。如需训练自定义模型,需额外准备至少 10 小时标注语音数据。