语音活动检测算法大致可以分为三类,第一类就是最简单的基于阈值的判别方法,这个以前讲过了,参考语音活动检测;第二类是WebRTC使用的基于GMM的检测方法;第三类就是基于深度学习的检测方法,这个也讲过了,参考使用LSTM进行端点检测。废话不多说,开始进入正题。
Introduction
WebRTC VAD支持8/16/24/32/48kHz采样率,不过都会重采样到8kHz进行计算,每一帧长度可以为80/10ms、160/20ms和240/30ms三种。VAD具有如下的四种模式,分别表示通用模式、低比特率模式、激进模式和非常激进模式,在不同模式下高斯混合模型的参数和判决的门限值有所不同。
enum Aggressiveness {
kVadNormal = 0,
kVadLowBitrate = 1,