超详细Kokoro-82M本地部署教程

经测试,Kokoro-82M的语音合成速度相比于其他tts非常的快,本文给出Windows版详细本地部署教程。

这里提供原始仓库进行参考:https://github.com/hexgrad/kokoro

一、依赖安装

1.新建conda环境

conda create --n kokoro python=3.12
conda activate kokoro

2.安装GPU版本torch

由于要用到CUDA的模型能力生成语音,记得安装GPU版本的torch

记得按照自己电脑CUDA版本进行安装or向下兼容

安装网址:https://pytorch.org/

示例(CUDA12.4):

conda install pytorch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 pytorch-cuda=12.4 -c pytorch -c nvidia

3.手动安装espeak-ng依赖

前往espeak-ng的官方GitHub仓库地址:https://github.com/espeak-ng/espeak-ng

①点击Releases

②下翻找到1.51

③找到Assets

根据自己的电脑版本选择.msi文件,我的是X64的系统所以下载了espesk-ng-X64.msi

下载后直接双击运行即可,一直点同意就行,这个安装很简单且快

4.其他依赖安装

pip install kokoro
pip install ordered-set
pip install cn2an
pip install pypinyin_dict

 

二、模型下载

我下载了kokoro-v1.0和kokoro-v1.1,但是最后好像只用到了v1.1,可以根据需要进行选择

export HF_ENDPOINT=https://hf-mirror.com # 引入镜像地址
huggingface-cli download --resume-download hexgrad/Kokoro-82M --local-dir ./ckpts/kokoro-v1.0
huggingface-cli download --resume-download hexgrad/Kokoro-82M-v1.1-zh --local-dir ./ckpts/kokoro-v1.1

三、代码测试

官方仓库没有给单独测试的python代码,这里给出:

(可以修改sentence部分为自己想转语音的文字)

import torch
import time
from kokoro import KPipeline, KModel
import soundfile as sf

voice_zf = "zf_001"
voice_zf_tensor = torch.load(f'ckpts/kokoro-v1.1/voices/{voice_zf}.pt', weights_only=True)
voice_af = 'af_maple'
voice_af_tensor = torch.load(f'ckpts/kokoro-v1.1/voices/{voice_af}.pt', weights_only=True)

repo_id = 'hexgrad/Kokoro-82M-v1.1-zh'
device = 'cuda' if torch.cuda.is_available() else 'cpu'
model_path = 'ckpts/kokoro-v1.1/kokoro-v1_1-zh.pth'
config_path = 'ckpts/kokoro-v1.1/config.json'
model = KModel(model=model_path, config=config_path, repo_id=repo_id).to(device).eval()

def speed_callable(len_ps):
    speed = 0.8
    if len_ps <= 83:
        speed = 1
    elif len_ps < 183:
        speed = 1 - (len_ps - 83) / 500
    return speed * 1.1

zh_pipeline = KPipeline(lang_code='z', repo_id=repo_id, model=model)
sentence = '你好,这是一个语音合成测试。'
start_time = time.time()
generator = zh_pipeline(sentence, voice=voice_zf_tensor, speed=speed_callable)
result = next(generator)
wav = result.audio
speech_len = len(wav) / 24000
print('yield speech len {}, rtf {}'.format(speech_len, (time.time() - start_time) / speech_len))
sf.write('output.wav', wav, 24000)

生成的语音文件会保存到output.wav中,会出现一些红色的警告,如果不是error就不用管,会正常运行的。

运行结果如下:

测试结果:

“你好,这是一个语音合成测试。”生成时间0.32秒左右

相比于fish-speech和之前用的edgetts的3~4秒生成时间快了非常多,最终项目选择使用kokoro完成语音合成部分。

 

<think>好的,用户想了解Kokoro v1.1的本地部署教程。首先,我需要回顾一下之前提供的引用内容,看看有没有相关的信息。引用1提到了一行命令本地部署Kokoro-82M,引用2是关于PyTorch的安装脚本,引用3详细描述了Kokoro-82M的实战部署步骤,引用4则提供了Hugging Face和GitHub的链接。不过用户问的是Kokoro v1.1,而之前的引用都是关于Kokoro-82M,可能需要确认这两个版本是否相关或者是否有差异。 假设Kokoro v1.1是Kokoro-82M的一个版本,那么可以基于引用3的步骤进行调整。首先,用户需要基础环境,比如Python、PyTorch、CUDA等。引用2中的PyTorch安装命令可能需要根据v1.1的要求调整版本。然后,模型下载部分,引用4的Hugging Face链接可能需要替换成v1.1的模型仓库地址。安装依赖部分,除了Anaconda环境,可能还需要其他库,比如espeak-ng,这在引用3中有提到。启动和测试部分可能需要修改脚本路径或参数。 另外,用户可能遇到的问题比如依赖版本冲突、模型路径错误、CUDA兼容性等,需要提前在注意事项中提醒。引用1提到的一键部署命令可能不适用于v1.1,但如果有类似脚本,可以建议用户查找官方文档。最后,生成相关问题时要围绕部署步骤、依赖安装、常见问题等展开。</think>### Kokoro v1.1 本地部署分步指南 #### 1. 基础环境准备 - **Python环境**:需安装 Python ≥3.8(推荐 3.10),使用 Anaconda 创建虚拟环境: ```bash conda create -n kokoro_v11 python=3.10 conda activate kokoro_v11 ``` - **PyTorch安装**:根据 CUDA 版本选择(无 GPU 则选 CPU 版本)[^2]: ```bash # CUDA 12.1 示例 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 ``` #### 2. 模型与代码获取 - **下载模型**:从 Hugging Face 仓库获取 Kokoro v1.1 模型文件(替换原 82M 版本链接)[^4]: ```bash git clone https://huggingface.co/hexgrad/Kokoro-v1.1 ``` - **克隆代码库**: ```bash git clone https://github.com/hexgrad/kokoro ``` #### 3. 依赖安装 - **核心依赖**: ```bash pip install -r kokoro/requirements_v11.txt # 假设版本专用配置文件 ``` - **系统级依赖**:需安装 `espeak-ng`(Windows 需单独配置,Linux/macOS 用包管理器)[^3] #### 4. 启动推理服务 - **运行示例脚本**: ```bash python kokoro/examples/v1.1_synthesis.py \ --model_path Kokoro-v1.1 \ --text "你好,欢迎使用 Kokoro v1.1" ``` - **参数说明**: - `--output`:指定生成音频路径 - `--speaker_id`:选择音色模板(需模型支持多音色) #### 5. 常见问题排查 - **CUDA内存不足**:尝试减小 `batch_size` 参数 - **语音断断续续**:检查文本预处理是否包含非法符号 - **依赖冲突**:使用 `conda list` 验证版本兼容性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值