普通话识别,mp3格式转wav, 采样率转换48000转16000,多通道转单通道,运用百度API,短音频,python

该博客演示了如何在Python中使用Pydub库转换音频声道,利用FFmpeg调整采样率,并通过百度AI的语音识别API对处理后的音频进行文字转换。主要涉及的工具有:Pydub、FFmpeg和百度AipSpeech SDK。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

需要在pycharm安装百度aip, ffmpeg, pydub 的包,可识别mp3,wav,pcm, amr文件

from pydub import AudioSegment
import ffmpeg
sound=AudioSegment.from_file(r"C:\Users\xx\Desktop\样本.mp3","mp3")
sound = sound.set_channels(1) #多声道转单声道
sound.export("转换声道后样本.wav", format="wav")

ffmpeg.input(r"转换声道后样本.wav").output('转换完毕样本.wav', ar=16000).run() #转换采样率
# frames_per_second = sound.frame_rate
# print(frames_per_second)
# channel_count = sound.channels
# print(channel_count)
from aip import AipSpeech
#注册一个百度API就有
APP_ID = '124541517'
API_KEY = '12DViLjkjV2svOcsGzutbi9nt'
SECRET_KEY = '1Xb89xy5LB5ax3F0utUqcsmRis5OBZiv7'
# 百度AI库获取的参数
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 构造读取语音文件函数
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
# 识别本地文件  主函数
result = client.asr(get_file_content(r'D:\编程\python.pycharm\2020\2021\pythonLearning\转换完毕样本.wav'), 'wav', 16000, { 'lan': 'zh',})
#此处地址处必须要加r,使其成为绝对地址,要么容易字符转义出现错误
print(result)

参考:
AudioSegment
百度api语音识别

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖虎技安

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值