WebRTC VAD流程解析

非典型废言

已于 2024-07-07 16:18:07 修改

阅读量3.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：语音信号处理文章标签：语音信号处理

于 2021-09-12 21:50:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_35821976/article/details/120256648

语音信号处理专栏收录该内容

54 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文介绍了WebRTC的语音活动检测（VAD）算法，主要包括初始化、VAD决策和更新过程。VAD使用GMM模型，将语音分为六个频段进行处理，并通过计算子带能量作为特征。在不同模式下，GMM参数和判决门限不同。经过下采样、特征计算和GMM概率计算，结合局部和全局判决确定语音帧。VAD还包括参数更新，以适应不同环境。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音活动检测算法大致可以分为三类，第一类就是最简单的基于阈值的判别方法，这个以前讲过了，参考语音活动检测；第二类是WebRTC使用的基于GMM的检测方法；第三类就是基于深度学习的检测方法，这个也讲过了，参考使用LSTM进行端点检测。废话不多说，开始进入正题。

Introduction

WebRTC VAD支持8/16/24/32/48kHz采样率，不过都会重采样到8kHz进行计算，每一帧长度可以为80/10ms、160/20ms和240/30ms三种。VAD具有如下的四种模式，分别表示通用模式、低比特率模式、激进模式和非常激进模式，在不同模式下高斯混合模型的参数和判决的门限值有所不同。

    enum Aggressiveness {
  
          kVadNormal = 0,        kVadLowBitrate = 1,

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。