记录一下最近发现的一个比赛和一些资源。
比赛的名称:The Interspeech Computational Paralinguistics ChallengE (ComParE) (INTERSPEECH计算机辅助语言学大赛)
介绍(译文):
Interspeech计算辅助语言学挑战(ComParE)系列是计算辅助语言学领域的一个开放性挑战,涉及说话人的状态和特征,表现在他们的语音信号的性质。自2009年以来,INTERSPEECH每年都会面临挑战。每年,我们都会引入新的任务,因为仍然存在大量尚未涵盖但高度相关的副语言现象。挑战涉及音频、语音和信号处理、自然语言处理、人工智能、机器学习、情感和行为计算、人机/机器人交互、mHealth、心理学和医学界,以及任何其他感兴趣的参与者。
关于数据集
这个比赛每年有不一样的主题,于是就有数据集贡献。数据集是很有价值的,然而并不开源,官方描述如下:
“Databases used in the Interspeech Computational Paralinguistics Challenge (ComParE) series are usually owned by individual donators. End User License Agreements (EULAs) are usually given for participation in the challenge. Usage of the databases outside of the Challenges always has to be negotiated with the data owners – not the organisers of the Challenge. We aim to provide contact information per database – however, this requires consent of the data owners, which we are currently collecting.”
关于开源特征提取工具
可以作为开发的参考,他们提供了很完整的特征提取与融合工具。
(1)openSMILE
(2)openXBOW
openXBOW是一个开源工具包,用于从多模式输入生成词袋(BoW)表示。 在BoW原理中,单词直方图首先被用作文档分类中的特征,但是该思想已经并且可以很容易地适用于例如声学或视觉低级描述符,从而引入了矢量量化的先前步骤。 openXBOW工具箱支持任意数字输入功能和文本输入,并将计算出的子袋连接到最终袋。 它提供了多种扩展和选项。
(3)auDeep
auDeep是用于使用深度神经网络(DNN)进行无监督特征学习的Python工具包。 当前,该项目的主要重点是使用深度循环自动编码器从音频数据中提取特征。 但是,核心特征学习算法不限于音频数据。 此外,我们计划实施其他基于DNN的特征学习方法。
(4)end2you
使用具有50层的ResNet从视觉信息中提取特征,而从语音中使用2层卷积神经网络(CNN)。 对于多模式情况,我们引入了一个全连接层,以将从不同模式提取的特征映射到同一空间。 之后,我们有了一个2层递归神经网络,更具体地说,我们利用门控递归单元(GRU)来考虑数据中的上下文信息。
最后吐槽一下参考论文,只是简单介绍了一下你们的数据库,又不开源数据,服!
参考:
[1]錢昆,董逢泉,任昭,戴振宇,董博,博雅恩. 心音識別的機遇與挑戰:深圳心音數據庫簡介[J]. 復旦學報(自然科學版),2020,59(03):354-359.
[2] Home of the Interspeech Computational Paralinguistics Challenges