LOW-POWER AUDIO KEYWORD SPOTTING USING TSETLIN MACHINES

Sliver Wings

于 2023-11-12 19:12:11 发布

阅读量272

点赞数

CC 4.0 BY-SA版权

分类专栏： TM学习记录文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/monkeynight/article/details/134345082

TM学习记录专栏收录该内容

6 篇文章

订阅专栏

本文探讨了使用TM进行低功耗关键词识别的方法，与神经网络相比，它具有更快的收敛速度和较低的复杂性。研究了音频预处理技术、关键词数量影响、声学相似性及TM大小对性能的影响，为芯片级KWS的硬件实现提供了优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于TM的低功耗语音关键字识别

摘要
1介绍
2TM的介绍
3KWS的音频预处理技术
4实验结果

摘要

在本文中，我们探讨了一种基于TM的关键词识别（KWS，以展示与NN（神经网络）相比更低的复杂性和更快的收敛速度。此外，我们研究了随着关键词数量的增加，TM的性能变化，并探讨了实现芯片上低功耗KWS的潜力。

1介绍

为了兼顾KWS的实时性和有效性，相比神经网络选择TM去实验。

2TM的介绍

参考以前的TM Book。

3KWS的音频预处理技术

通过MFCC进行特征提取，然后通过基于分位数的分箱进行离散化控制以进行布尔化。

在这里插入图片描述
在提取特征之前增加了预加重步骤，用于补偿人类声道的结构并提供初始的噪声过滤。在说话时产生声门音时，声道通过声道将较高频率的声音减弱，可以将其表征为信号频谱中的一个阶跃滚降。预加重步骤，正如其名字所示，增强（强调）高频区域的能量，从而导致信号的整体归一化。
接着是一系列的数据处理。
分箱，布尔化。

4实验结果

操纵窗口长度和窗口步长以控制生成的MFCC数量。
探索不同分位数箱的效果，以改变布尔特征的数量。
使用从2到9的不同数量的关键词，探索可扩展性。
测试声学不同和相似关键词对性能的影响。
通过操纵从句计算模块的数量，通过调整反馈控制参数s和T来优化性能，改变TM的大小。

MFC4.1C设置

控制窗口步长和窗口长度
在这里插入图片描述
增加窗口步长非常有效，可以减少所有帧上的总MFCC系数的数量，但准确率下降。

分位数数量

4.3增加关键词数量

随着关键词数量的增加，训练、测试和验证准确性呈线性下降趋势。

4.4 声音相似的关键词

当类别重叠存在时，准确率下降。

4.5 每个类别的子句数量

通过大量从句可以实现非常高的准确性。
在这里插入图片描述

对KWS-TM的比较学习收敛和复杂性分析

更快的训练速度和更低的参数量。
在这里插入图片描述
为未来在硬件加速器中实现更好的性能和低功耗的芯片级KWS提供了可能性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。