OpenVoice本地部署教程与踩坑记录

文章介绍了OpenVoice,一种能通过少量音频样本克隆声音的Python技术,涉及模型部署、环境准备、安装库、模型下载和运行示例。还提到了TTS和音频转换的过程,以及在中国遇到的网络限制问题及其解决方案。
该文章已生成可运行项目,

前言

        OpenVoice是一种多功能的即时声音克隆方法,它只需要参考发言者的一小段音频片段,就可以复制他们的声音并用多种语言生成语音。更多介绍详见博文【Python趋势榜-OpenVoice】,官方仓库地址【https://github.com/myshell-ai/OpenVoice

        简单的说,OpenVoice可以克隆语音,只需要一段几十秒的录音就可以得到很不错的模仿效果。甚至男声转女声的效果也很不错,这就有很大的想象空间。目前官方的做法是通过算法学习录音文件的音色和发音习惯,然后将文本通过TTS转为语音,再用学习到的音色特征转换语音得到最终音频文件,其中还可以对生成的文件加入特殊水印从而保证不被滥用。

部署

准备环境

        本项目运行在python3.9,可以到python官网下载对应的版本【python-3.9.10-amd64.exe】,也可以使用conda创建。自行安装的记得切换环境变量,最好是CMD中尝试一下是否正常运行在3.9之上。

克隆项目

        克隆就不再赘述了,程序员的基本技能【https://github.com/myshell-ai/OpenVoice】。

git clone https://github.com/myshell-ai/OpenVoice.git

        由于官方在2024-2-14日改变了目录层级【refactor!: Converts Project into a Python Compatible Package】,本文的代码无法直接使用,建议拉取之前的历史代码测试。也可以修改本文调用的代码测试,难度不大。

安装库

        安装官方requirements.txt中所要求的支持库。

pip install -r requirements.txt
本文章已经生成可运行项目
### OpenVoice 本地部署教程 #### 系统需求 在开始之前,请确保您的计算机满足以下条件:已安装并配置好适合开发的环境,例如 Windows Subsystem for Linux (WSL2),macOS 或者 Ubuntu 等操作系统[^1]。 此外还需要安装 Docker Desktop 来简化容器化过程,并且要保证该程序能够适配 WSL2 模式下的运行环境[^2]。 #### 安装基础组件 对于基于 Debian 的发行版来说,可以通过下面这条命令一次性完成大部分必要软件包的安装: ```bash sudo apt-get update && sudo apt-get install -y git curl wget build-essential python3-pip ffmpeg ``` 这一步骤旨在准备一个干净而完整的编译执行平台,其中包含了 Git 版本控制系统、Curl 和 Wget 命令行工具、Build-Essential 构建套件以及 Python 解释器连同 Pip 包管理器还有 FFmpeg 多媒体框架[^3]。 #### 获取源码 接下来从 GitHub 上克隆最新版本的 OpenVoice 库至本地磁盘位置: ```bash git clone https://github.com/myshell-ai/OpenVoice.git cd OpenVoice/ ``` 这样就完成了项目文件结构的下载动作[^4]。 #### 设置虚拟环境 建议总是为新项目单独设立专属的 Python 虚拟环境以便于维护各个项目的依赖关系不互相干扰: ```bash python3 -m venv env source ./env/bin/activate pip install --upgrade pip setuptools wheel pip install -r requirements.txt ``` 上述指令序列首先建立了一个名为 `env` 的全新虚拟空间;接着激活这个刚创建出来的沙盒区域使得后续所有的 Python 操作都限定在此范围内进行;随后升级 PIP 工具本身及其配套插件以获得最佳兼容性和安全性表现;最后按照预先定义好的依赖清单逐条安装所需库文件[^5]。 #### 修改应用参数(可选) 如果您希望自定义某些行为特性的话,则可能需要编辑部分核心脚本比如 `openvoice_app.py` 。举个例子而言,我们可以允许用户同时选择多个样式选项而不是仅仅局限于单一默认值之上: ```python style_gr = gr.Dropdown( label="Style", info="Select one or more styles of output audio.", choices=['default', 'whispering', 'cheerful'], max_choices=None, value=["default"], multiselect=True ) ``` 此处我们调整了 Dropdown 控制元件的行为使其支持多选功能并且移除了中文独占样式的限制条件[^5]。 #### 启动应用程序 当所有前期准备工作均已妥善完成后便可以正式启动我们的语音合成服务啦! ```bash uvicorn main:app --host 0.0.0.0 --port 8000 ``` 此时您应当能够在浏览器地址栏输入类似于这样的 URL 地址来访问前端界面并之交互:`http://localhost:8000/docs`[^6]。 ---
### WSL2 上部署 OpenVoice本地教程 #### 准备工作 在开始之前,需确认已安装并配置好 Windows Subsystem for Linux (WSL2)[^1]。此外,还需确保系统中已经安装 Docker Desktop 并启用其对 WSL2 的支持功能[^2]。 #### 安装依赖环境 为了成功运行 OpenVoice,在 WSL2 中需要先完成以下软件包的安装: ```bash sudo apt update && sudo apt upgrade -y sudo apt install git curl wget build-essential python3-pip ffmpeg -y ``` 以上命令会更新系统的软件源列表,并安装必要的工具和库文件,包括 Git、Curl、Wget、Build-Essential 编译器套件以及 Python 和 FFmpeg 多媒体处理工具[^3]。 #### 获取项目代码 通过克隆官方仓库来获取最新的 OpenVoice 项目代码: ```bash git clone https://github.com/OpenVoiceOS/ovos_backend_services.git cd ovos_backend_services ``` 此操作将下载项目的全部资源到当前目录下[^4]。 #### 配置虚拟环境依赖项 推荐创建独立的 Python 虚拟环境以隔离不同项目的依赖关系: ```bash python3 -m venv .venv source .venv/bin/activate pip install --upgrade pip setuptools wheel pip install -r requirements.txt ``` 这些步骤可以初始化一个新的 Python 环境,并加载该项目所需的第三方模块清单[^5]。 #### 启动服务端 进入 `backend` 文件夹后执行启动脚本即可激活后台服务器进程: ```bash cd backend ./start.sh ``` 如果一切正常,则应该可以看到日志输出表明各项微服务正在逐步上线[^6]。 #### 测试客户端连接 最后一步是从另一终端窗口发起测试请求验证整个链路是否通畅无阻塞现象存在: ```bash curl http://localhost:8080/api/status ``` 返回 JSON 数据即代表基本框架搭建完毕可投入使用状态[^7]。 ```json { "status": "OK", "message": "Backend is running" } ``` ---
评论 36
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值