音频特征

本文介绍了声音信号处理中的关键特征,包括STFT(短时傅立叶变换)、CQT(恒定Q变换)以及频率质心、谱滚降等统计特征。这些特征在深度学习模型中被用作输入,模拟人类听觉感知,并在语音识别和音乐信息检索等领域发挥重要作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 最基本那肯定是STFT,说白了就是FFT加窗。有人肯定说这不算是feature,因为这是raw data,但是现在深度学习已经越来越多的使用这种raw data作为“feature” 输入到网络让模型自己学习其中的特征。其物理含义也十分明确:就是把时间信号转换为时间-频率的信号,根据FFT的窗长和选择的窗函数来决定时间-频率分辨率的tradeoff。说白了就是直接让你看每一段时间内的频率成分。从人类感知的角度来说,在连续的声音中人耳感知和分析的是短时间的一段段信号,所以这也是使用STFT的一个原因。

2. 在FFT的基础上还有一个叫constant Q transform (CQT)。使用FFT进行频率分析中的频率是线性的,但人耳感知频率却不是线性的,也就是说人耳对某些频段要比其他频段敏感:对频率的感知敏感度大体符合一个对数分布;对比较低频率的敏感度(或者区分度)比较高,越高频率敏感率越低,CQT就是按照这个原理在FFT的基础上进行对数压缩,使结果更逼近人耳的感知。

3. 频率质心 (Spectral centroid),这个比较容易理解,就说对于整个频率带去一个几何平均值,作用类似于物理上的质量之心:用一个点来代表整个质量。这个同理,用一个频率来代表整个频率带,比如一段声音主要是高频成分的频率质心就比较高。这个值一般和声音的亮度有关。

4. Spectral rolloff: 这个是一种频率带宽的度量; spectral spread: 这个是表征瞬时的频率带宽的,数学上其实是对于在频率质心处取了一个导数。

5. Spectral flux: 一种频率变换率的度量

6.Spectral decrease: 表征随着能量值随着频率变化而变化的程度

7.Spectral slope, skewness, kurtosis... 有兴趣的可以自己查查,都是频率的一些统计特征,个人感觉用的不算多。

8. 各种倒谱特征,最有名的当属MFCC,但MFCC是属于比较高级别的特征,所以其具体的物理含义没有像以上的特征直白好理解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值