本地部署 Whisper 及 WhisperDesktop

文章介绍了如何在Ubuntu和Windows系统上部署Whisper,一个通用的语音识别模型。首先,创建虚拟环境并安装ffmpeg,然后克隆GitHub仓库安装Whisper及其依赖。对于Ubuntu,还涉及了CUDAToolkit的更新。最后,文章提到了如何使用Whisper进行测试,并提供了Windows下部署WhisperDesktop的步骤,包括下载软件和语音模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 什么是 Whisper

Whisper 是一个通用的语音识别模型。它是在一个大型的不同音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别(multilingual speech recognition)、语音翻译(speech translation)和语言识别(language identification)。

2. Github 地址

https://github.com/openai/whisper

3. 创建虚拟环境

conda create -n whisper python==3.10.6
conda activate whisper 

4. 安装 ffmpeg

sudo apt update && sudo apt install ffmpeg

5. 部署 Whisper

克隆代码库,

git clone https://github.com/openai/whisper.git; cd whisper/

安装依赖,

pip3 install -r requirements.txt
pip3 install -U openai-whisper
pip3 install git+https://github.com/openai/whisper.git 
pip3 install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip3 install setuptools-rust

(可选)我使用的是 WSL-Ubuntu 22.04,安装的 CUDA Toolkit 11.8,将 pytorch、torchvision、torchaudio 更新为兼容 CUDA Toolkit 11.8 的版本。

pip3 uninstall pytorch torchvision torchaudio && pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

6. 使用 Whisper

这里我录制了一句中文,测试一下效果,

whisper demo.wav --model medium --language Chinese

输出如下,

在这里插入图片描述

(20230514追加)Windows 本地部署 WhisperDesktop

下载 WhisperDesktop

访问 https://github.com/Const-me/Whisper/releases,下载最新版 WhisperDesktop,

在这里插入图片描述
将下载的文件解压,例如,D:\ProgramGreen\WhisperDesktop 目录下,

插入

下载语音模型

访问 https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main,下载语音模型,

在这里插入图片描述

使用 WhisperDesktop

双击打开 WhisperDesktop.exe,加载刚刚下载的语音模型,

在这里插入图片描述
找一个视频文件测试一下,
在这里插入图片描述
生成文本的一部分截屏如下,
在这里插入图片描述

完结!

### 如何在Mac上本地部署Whisper模型 为了在Mac上成功部署Whisper模型,环境配置至关重要。确保安装了Python 3.x版本以及pip工具[^1]。 #### 安装依赖库 首先,需要创建一个新的虚拟环境来管理项目的依赖项: ```bash python3 -m venv whisper-env source whisper-env/bin/activate ``` 接着,在激活的环境中安装必要的软件包: ```bash pip install --upgrade pip pip install torch torchvision torchaudio pip install git+https://github.com/openai/whisper.git ``` 上述命令会下载并安装PyTorch框架及其音频处理扩展模块`torchaudio`,还有来自OpenAI官方仓库中的Whisper实现代码[^2]。 #### 下载预训练模型 通过下面这段简单的Python脚本可以加载预先训练好的Whisper模型: ```python import whisper model = whisper.load_model("base") # 或者选择其他大小:"tiny", "small", "medium", "large" print(f"Model is {'multilingual' if model.is_multilingual else 'English-only'} " f"and has {sum(np.prod(p.shape) for p in model.parameters()):,} parameters.") ``` 此段代码不仅能够初始化指定名称的小型至大型不同规模的Whisper变体之一,还会打印出有关所选模型的一些基本信息,比如它是否支持多语言识别功能以及参数总量等细节[^3]。 #### 使用模型进行推理 一旦完成了以上准备工作之后,就可以利用已加载的Whisper实例来进行语音转文字的任务了。这里给出一段示范性的调用方式: ```python result = model.transcribe("/path/to/audio/file.mp3") print(result["text"]) ``` 只需替换路径字符串为实际待转换文件的位置即可执行实时翻译操作,并输出最终的文字结果到控制台界面中显示出来[^4]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值