普通话识别，mp3格式转wav, 采样率转换48000转16000，多通道转单通道，运用百度API，短音频，python

最新推荐文章于 2025-05-16 19:03:44 发布

原创最新推荐文章于 2025-05-16 19:03:44 发布 · 2.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #语音识别 #百度

语音识别专栏收录该内容

1 篇文章

订阅专栏

该博客演示了如何在Python中使用Pydub库转换音频声道，利用FFmpeg调整采样率，并通过百度AI的语音识别API对处理后的音频进行文字转换。主要涉及的工具有：Pydub、FFmpeg和百度AipSpeech SDK。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需要在pycharm安装百度aip, ffmpeg, pydub 的包，可识别mp3,wav,pcm, amr文件

from pydub import AudioSegment
import ffmpeg
sound=AudioSegment.from_file(r"C:\Users\xx\Desktop\样本.mp3","mp3")
sound = sound.set_channels(1) #多声道转单声道
sound.export("转换声道后样本.wav", format="wav")

ffmpeg.input(r"转换声道后样本.wav").output('转换完毕样本.wav', ar=16000).run() #转换采样率
# frames_per_second = sound.frame_rate
# print(frames_per_second)
# channel_count = sound.channels
# print(channel_count)
from aip import AipSpeech
#注册一个百度API就有
APP_ID = '124541517'
API_KEY = '12DViLjkjV2svOcsGzutbi9nt'
SECRET_KEY = '1Xb89xy5LB5ax3F0utUqcsmRis5OBZiv7'
# 百度AI库获取的参数
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 构造读取语音文件函数
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
# 识别本地文件  主函数
result = client.asr(get_file_content(r'D:\编程\python.pycharm\2020\2021\pythonLearning\转换完毕样本.wav'), 'wav', 16000, { 'lan': 'zh',})
#此处地址处必须要加r，使其成为绝对地址，要么容易字符转义出现错误
print(result)