LOW-POWER AUDIO KEYWORD SPOTTING USING TSETLIN MACHINES

本文探讨了使用TM进行低功耗关键词识别的方法,与神经网络相比,它具有更快的收敛速度和较低的复杂性。研究了音频预处理技术、关键词数量影响、声学相似性及TM大小对性能的影响,为芯片级KWS的硬件实现提供了优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

在本文中,我们探讨了一种基于TM的关键词识别(KWS,以展示与NN(神经网络)相比更低的复杂性和更快的收敛速度。此外,我们研究了随着关键词数量的增加,TM的性能变化,并探讨了实现芯片上低功耗KWS的潜力。

1介绍

为了兼顾KWS的实时性和有效性,相比神经网络选择TM去实验。

2TM的介绍

参考以前的TM Book

3KWS的音频预处理技术

通过MFCC进行特征提取,然后通过基于分位数的分箱进行离散化控制以进行布尔化。

在这里插入图片描述
在提取特征之前增加了预加重步骤,用于补偿人类声道的结构并提供初始的噪声过滤。在说话时产生声门音时,声道通过声道将较高频率的声音减弱,可以将其表征为信号频谱中的一个阶跃滚降。预加重步骤,正如其名字所示,增强(强调)高频区域的能量,从而导致信号的整体归一化。
接着是一系列的数据处理。
分箱,布尔化。

4实验结果

操纵窗口长度和窗口步长以控制生成的MFCC数量。
探索不同分位数箱的效果,以改变布尔特征的数量。
使用从2到9的不同数量的关键词,探索可扩展性。
测试声学不同和相似关键词对性能的影响。
通过操纵从句计算模块的数量,通过调整反馈控制参数s和T来优化性能,改变TM的大小。

MFC4.1C设置

控制窗口步长和窗口长度
在这里插入图片描述
增加窗口步长非常有效,可以减少所有帧上的总MFCC系数的数量,但准确率下降。

分位数数量

4.3增加关键词数量

随着关键词数量的增加,训练、测试和验证准确性呈线性下降趋势。

4.4 声音相似的关键词

当类别重叠存在时,准确率下降。

4.5 每个类别的子句数量

通过大量从句可以实现非常高的准确性。
在这里插入图片描述

对KWS-TM的比较学习收敛和复杂性分析

更快的训练速度和更低的参数量。
在这里插入图片描述
为未来在硬件加速器中实现更好的性能和低功耗的芯片级KWS提供了可能性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值