麦克风阵列声音定位简介

最新推荐文章于 2025-05-20 11:57:05 发布

isuccess88

最新推荐文章于 2025-05-20 11:57:05 发布

阅读量3.4w

点赞数 27

分类专栏：机器听觉文章标签：麦克风声源定位语音

机器听觉专栏收录该内容

3 篇文章

订阅专栏

麦克风阵列声音定位简介

一般来说，基于麦克风阵列的声源定位算法划分为三类：一是基于波束形成的方法；二是基于高分辨率谱估计的方法；三是基于声达时延差（TDOA）的方法。

波束形成（Beamforming）

基于最大输出功率的可控波束形成技术 Beamforming，它的基本思想就是将各阵元采集来的信号进行加权求和形成波束，通过搜索声源的可能位置来引导该波束，修改权值使得传声器阵列的输出信号功率最大。这种方法既能在时域中使用，也能在频域中使用。它在时域中的时间平移等价于在频域中的相位延迟。在频域处理中，首先使用一个包含自谱和互谱的矩阵，我们称之为互谱矩阵(Cross-Spectral Matrix，CSM)。在每个感兴趣频率之处，阵列信号的处理给出了在每个给定的空间扫描网格点上或每个信号到达方向(Direction ofArrival，DOA)的能量水平。因此，阵列表示了一种与声源分布相关联的响应求和后的数量。这种方法适用于大型麦克风阵列，对测试环境适应性强。

Beamforming 的基本工作原理图：

上图说明：使用波束形成算法，先决条件是远场声源（近场声源用 TDOA），这样可以假设入射声波都是平行的；平行的声场，如果入射角度与麦克风平面垂直，则能同时到达各个麦克风，如果不垂直，则出现图 1 的现象，声场到达每个麦克风都会有延时，这个延时大小是由入射角度而定。

从该图中可看出：不同的入射角度，叠加出来的最终波形强度是不一样的。如θ=-45 度，几乎没有信号，θ=0 度，微微有点信号，θ=45 度，信号达到最强。这说明把原来没有极性的单支麦克风组装成一个阵列后，整个阵列是有极性的，可以引出下一个极性图。

上图说明：每个麦克风阵列都是一个方向阵，这个方向阵的指向性可通过时域算法Delay&Sum 简单实现，控制不同的 Delay，实现不同方向的指向。这个方向阵指向可控相当于给了一个空间滤波器，可以先把定位区域进行网格划分，再通过每个网格点的 Delay 时间对各个麦进行时域 Delay，并最终把它 Sum 起来，就可以算出每个网格的声压，最终得到每个网格的相对声压，就可以出噪声源定位的全息彩图了。

基于高分辨率谱估计

基于高分辨率谱估计的方法包括了自回归 AR 模型、最小方差谱估计（MV）和特征值分解方法（如 Music 算法）等，所有这些方法都通过获取了传声器阵列的信号来计算空间谱的相关矩阵。在理论上可以对声源的方向进行有效估计，实际中若要获得较理想的精度，就要付出很大的计算量代价，而且需要较多的假设条件，当阵列较大时这种谱估计方法的运算量很大，对环境噪声敏感，还很容易导致定位不准确，因而在现代的大型声源定位系统中很少采用。

声达时间差(TDOA)

声达时间差(TDOA)的定位技术，这类声源定位方法一般分为二个步骤进行，先进行声达时间差估计，并从中获取传声器阵列中阵元间的声延迟(TDOA)；再利用获取的声达时间差，结合已知的传声器阵列的空间位置进一步定出声源的位置。

下图解释了 TDOA 的基本工作原理。

红点是噪声源，黑点是麦克风，噪声源到两个麦（如麦 1，麦 3）的时延是一个常数，通过这个常数，我们可以画出绿色的双曲线，噪声源到麦 3，麦 2 的时延是另一个常数，同样地，我们可以画出黑色曲线，两条曲线相交，就是噪声源的位置。

这种方法的计算量一般比前二种要小，更利于实时处理，但定位精度和抗干扰能力较弱，适合于近场，单一音源，而且不是重复性的信号，如语音信号，微软 XBOX360 的 kinect 的麦阵（4 个间距不等的一维阵）就是典型的 TDOA 算法应用。

定位系统简介

根据麦克风阵列声源定位的原理，必须要同步采集多通道噪声信号，用于数据处理，这就必须得保证动态信号的采集精度。其高科技的麦克风阵列的声源定位系统主要采用NI PXI平台和cDAQ平台，配合使用高性能动态数据采集卡，可完成多通道大数据量的精确采集。

软件拟采用 SignalPad 麦克风阵列模块，具体采用的算法现在不能完全确定，需现场采集声音特点，已经阵列的几何尺寸、安装位置、定位环境综合考虑。多种算法现场综合比对之后，择优选取。

麦克风阵列支架设计技术

光有优秀的算法，采集硬件支持还不够，还需要有优秀的麦克风支架设计技术。

传声器阵列是由一定数量的传声器按照一定的空间几何位置排列而成的。阵列参数包括传声器的数目，阵列的孔径大小，传声器阵元间距，传声器的空间分布形式等几何参数；另外还包括指向性，波束宽度，最大旁瓣级等衡量阵列性能优劣的特征参数。设计一个好的阵列，需要同时考虑实际需求和器材的限制。理论上，应该采用最少的传声器，实现最好的识别效果。

传声器的数目和阵列孔径决定了一个阵列实现的复杂程度。阵列的传声器个数越多，布线方式越复杂。阵列孔径表示的是阵列在空间占据的体积，阵列孔径越大，结构实现越困难。传声器数目还影响阵列增益。由于阵列是在噪声背景下检测信号的，阵列增益是用来描述阵列作为空间处理器所提供的信噪比改善程度。一般来说，传声器数目和阵列增益成正比。

阵列要有较好分辨率，要求有较大的孔径 D；阵列要有较高的截止频率，要求较小的阵列间距。孔径大间距小时相互矛盾的，如果都要满足只能增加传声器的数目。在实际使用中往往针对具体的被测对象来权衡设计。

常用的阵列如下图所示：基本可以划分为规则几何形状的阵列，和非常规阵列。规则几何形状阵列，包括线性阵列，十字形阵列，圆形阵列，螺旋形阵列等，这些都是规则几何形状的阵列类型，此外还有更为复杂的不规则阵列类型。不规则的阵列二个传声器的位置向量方向不同，位置向量是线性无关的，从而能够很好的避免重复空间采样，抑制混叠效应，有效的减少鬼影的出现。但是不规则阵列在制造安装运输方面有着较高的成本。

原网站：http://www.keygotech.com/cn/solution/noise-and-vibration/sound-source-localization/noise-source-location-based-on-mic-array