使用PYthon进行编程实现语音识别功能资源-CSDN下载

共3个文件

py：1个

mp3：1个

audiorecg：1个

PYTHON

语音识别

自然语言处理

158 浏览量 2024-12-28 13:02:14 上传评论收藏 4.96MB ZIP 举报

本资源是使用Python进编写。包含了代码文件和音频文件。主要包括了语音识别功能和输出文本的功能。其中可以把录音文件生成并输出，还可以输入文字，使得机器进行阅读。本文件适合小白入门，或者对语音识别感兴趣的程序员！希望对你有帮助，有需要联系我随着人工智能技术的快速发展，语音识别技术作为其中的重要组成部分，已经广泛应用于智能助手、语音控制系统以及各种智能设备中。语音识别技术能够将人发出的语音信号转换为相应的文本信息，是人机交互的重要方式之一。本资源采用Python编程语言实现了一个基本的语音识别功能。Python语言因其简洁明了的语法、丰富的库支持以及强大的社区资源，成为实现人工智能应用的首选语言之一。通过Python，开发者可以更容易地将复杂的算法和功能模块化，快速实现原型设计。本资源提供的代码文件为“audio_Recg.py”，通过这个脚本，用户可以将录制的音频文件转化为文本信息。这个过程涉及到几个关键步骤：首先是音频信号的录制，然后是对录制的音频信号进行处理，包括滤波、增益调整等预处理操作。预处理之后，使用语音识别算法对信号进行识别，并将识别结果输出为文本格式。音频文件“M500000yLI8y2RJRq3.mp3”可能是一个示例的录音文件，用以演示语音识别功能的实现过程和效果。通过这个示例文件的处理，开发者可以直观地理解如何将语音数据转化为文本数据。对于那些对Python或语音识别技术感兴趣的初学者来说，本资源是一个很好的学习起点。它不仅介绍了如何使用Python语言和相关库来实现基本的语音识别功能，还提供了一个可供实践操作的示例音频文件。通过学习和实践本资源的内容，初学者可以更好地理解语音识别的工作原理，并逐步深入到更复杂的语音处理技术中去。此外，本资源还特别适合希望将语音识别技术应用于实际项目中的开发者。通过掌握本资源中的知识，开发者可以开发出具有语音识别能力的应用程序，从而提升产品的交互体验和用户满意度。本资源不仅为初学者提供了学习语音识别技术的平台，也为专业开发者提供了实现语音识别功能的实用工具。通过本资源的学习和实践，开发者可以更好地掌握Python在语音识别领域的应用，从而在人工智能的浪潮中乘风破浪。

资源推荐

资源详情

资源评论

收起资源包目录

audio_REg.zip （3个子文件）

audio_Recg.py 3KB

M500000yLI8y2RJRq3.mp3 4.97MB

audiorecg 0B

# coding=utf-8 # WELCOME TO MING BRO's WORLD # THE MEETING TIME 2024/12/17 16:26 import pyttsx3 import whisper import speech_recognition as sr import time import numpy as np import pyaudio import wave from tqdm import tqdm def speak(audioString): print(audioString) pyttsx3.speak(audioString) engine = pyttsx3.init() engine.say("你是谁") engine.runAndWait() speak("I will speak this text") # 加载 Whisper 模型 model = whisper.load_model("base") #离线识别语音 # result = model.transcribe("zh.wav") # print(result['text']) def record_audio(wave_out_path,record_second): CHUNK = 1024 FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 44100 p = pyaudio.PyAudio() stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK) wf = wave.open(wave_out_path, 'wb') wf.setnchannels(CHANNELS) wf.setsampwidth(p.get_sample_size(FORMAT)) wf.setframerate(RATE) print("* recording") for i in tqdm(range(0, int(RATE / CHUNK * record_second))): data = stream.read(CHUNK) wf.writeframes(data) print("* done recording") stream.stop_stream() stream.close() p.terminate() wf.close() # record_audio("output.mp3",record_second=4) # text = model.transcribe("M500000yLI8y2RJRq3.mp3") # print(text) def process_audio_data(audio_chunk): """ 将音频块数据转换为模型可以处理的格式。 """ audio_data = np.frombuffer(audio_chunk, dtype=np.int16).astype(np.float32) / 32768.0 return audio_data def transcribe_audio(audio_data): """ 使用 Whisper 模型对音频数据进行转录。 """ result = model.transcribe(audio_data, fp16=False) return result['text'] def main(): # 配置 PyAudio p = pyaudio.PyAudio() stream = p.open(format=pyaudio.paInt16, channels=1, rate=44100, input=True, frames_per_buffer=1024) print("开始实时语音识别...") time.sleep(10) try: while True: # 读取音频块 audio_chunk = stream.read(1024) # 处理音频数据 audio_data = process_audio_data(audio_chunk) # 转录音频数据 # text = transcribe_audio("output.mp3") text = transcribe_audio(audio_data) # 输出转录结果 print(text) except KeyboardInterrupt: print("\n停止实时语音识别.") finally: # 关闭音频流 stream.stop_stream() stream.close() p.terminate() if __name__ == "__main__": main() # # # 录下来你讲的话 # def recordAudio(): # # 用麦克风记录下你的话 # print("开始麦克风记录下你的话") # r = sr.Recognizer() # with sr.Microphone() as source: # audio = r.listen(source) # data = "" # try: # data = r.recognize_google(audio) # print("You said: " + data) # except sr.UnknownValueError: # print("Google Speech Recognition could not understand audio") # except sr.RequestError as e: # print("Could not request results from Google Speech Recognition service; {0}".format(e)) # return data # # # if __name__ == '__main__': # time.sleep(2) # while True: # data = recordAudio() # print(data)

评论收藏

内容反馈