本地部署 Whisper 及 WhisperDesktop

engchina

已于 2023-05-14 09:30:13 修改

阅读量8.6k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： LINUX 文章标签： whisper chatgpt 本地部署 WhisperDesktop

于 2023-05-08 12:58:25 首次发布

本文链接：https://blog.csdn.net/engchina/article/details/130556631

LINUX 专栏收录该内容

938 篇文章

订阅专栏

文章介绍了如何在Ubuntu和Windows系统上部署Whisper，一个通用的语音识别模型。首先，创建虚拟环境并安装ffmpeg，然后克隆GitHub仓库安装Whisper及其依赖。对于Ubuntu，还涉及了CUDAToolkit的更新。最后，文章提到了如何使用Whisper进行测试，并提供了Windows下部署WhisperDesktop的步骤，包括下载软件和语音模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 什么是 Whisper

Whisper 是一个通用的语音识别模型。它是在一个大型的不同音频数据集上训练出来的，也是一个多任务模型，可以进行多语言语音识别(multilingual speech recognition)、语音翻译(speech translation)和语言识别(language identification)。

2. Github 地址

https://github.com/openai/whisper

3. 创建虚拟环境

conda create -n whisper python==3.10.6
conda activate whisper

4. 安装 ffmpeg

sudo apt update && sudo apt install ffmpeg

5. 部署 Whisper

克隆代码库，

git clone https://github.com/openai/whisper.git; cd whisper/

安装依赖，

pip3 install -r requirements.txt
pip3 install -U openai-whisper
pip3 install git+https://github.com/openai/whisper.git 
pip3 install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip3 install setuptools-rust

(可选)我使用的是 WSL-Ubuntu 22.04，安装的 CUDA Toolkit 11.8，将 pytorch、torchvision、torchaudio 更新为兼容 CUDA Toolkit 11.8 的版本。

pip3 uninstall pytorch torchvision torchaudio && pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

6. 使用 Whisper

这里我录制了一句中文，测试一下效果，

whisper demo.wav --model medium --language Chinese

输出如下，

在这里插入图片描述

(20230514追加)Windows 本地部署 WhisperDesktop

下载 WhisperDesktop

访问 https://github.com/Const-me/Whisper/releases，下载最新版 WhisperDesktop，

在这里插入图片描述
将下载的文件解压，例如，D:\ProgramGreen\WhisperDesktop 目录下，

下载语音模型

访问 https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main，下载语音模型，

在这里插入图片描述

使用 WhisperDesktop

双击打开 WhisperDesktop.exe，加载刚刚下载的语音模型，

在这里插入图片描述
找一个视频文件测试一下，

生成文本的一部分截屏如下，

完结！