语音质量的概念与解释性方法解析
立即解锁
发布时间: 2025-09-03 00:08:51 阅读量: 21 订阅数: 19 AIGC 


语音质量感知的认知机制
# 语音质量的概念与解释性方法解析
## 1. 概念性方法
### 1.1 质量元素与质量特征
早期Jekosch对体验质量的定义为,它是对实体感知构成与其预期或期望构成进行认知判断的结果。这里的实体既可以是物质的,也可以是非物质的对象或事件,其实体构成指的是实体所有特征的总和。特征是实体可识别和命名的特性,正交或独立的特征被称为维度,所有特征或维度通过具体的特征值或维度值来体现。
在物理世界的客观领域,实体是物理事件,如声音事件,可由物理特征(如声压级、基频等)的构成来完整描述,多个物理维度构成物理空间。而在人类感知的主观领域,涉及以感知事件或感知觉形式存在的有意识体验,每个感知事件由众多感知特征(如音高、音色等)及其单一特征值的感知构成来表征。预期或期望构成是个体期望、相关需求和社会要求的特征总和,当涉及感知特征时,能与互补的感知构成的特征值进行一一匹配。
Jekosch还强调了质量元素和质量特征的重要区别:
- 质量元素是在规划、执行或使用阶段的行动、活动或过程对物质或非物质产品质量的贡献,是系统的客观、可仪器测量的参数(如QoS指标)或通信信道的属性,会影响体验质量,例如信噪比、比特率。
- 质量特征是与实体质量相关的、被认可和指定的实体特性,是主观体验的组成部分,是有助于体验质量的感知、概念和情感特征的子集,正交的质量特征被称为质量维度。
在远程通信网络的人际交互方面,Möller提出了QoS分类法,将相关的质量元素和质量特征进行分类和关联。在技术系统和人类用户两端,质量元素和质量特征分别组合成质量因素和质量方面,进而分别整合为QoS和QoE(整体质量)。其中,语音通信因素这一类别包含与语音传输系统中人类伙伴之间通信直接相关的所有因素,又分为单向语音传输质量、通信便利性和对话有效性三个子类别,这些都决定了通信效率。特别是单向语音传输质量子类别中的质量元素(如数据包/帧丢失率、信噪比、传输带宽)与感知质量特征(如感知到的“不连续性”“嘈杂度”“色彩度”)有最直接的关系,这些感知质量特征在用户(听众)端组合成感知质量方面。单向语音传输质量仅涉及向被动听众的单向传输,而另外两个子类别则需要交互式对话中交替倾听和说话的对话者之间进行双向通信。
### 1.2 感知质量与判断质量
Jekosch最初的定义以及后来以QoE为中心的重新表述都将体验质量定义为个体比较和判断过程的结果,包括感知、对感知的反思以及结果的描述。因此,刺激的质量只有在经过认知评估后才能被体验到。这里进一步提出了感知质量和判断质量的概念区分。
在日常生活中,人类会遇到不同质量程度的物理刺激。例如,在雾霭弥漫的黑暗中户外行走或在嘈杂的街道附近,会降低视觉或听觉对象的感官细节;在多媒体技术使用中,观看低分辨率和比特率的视频或音频流也会有类似情况。在感官受损的情况下,如屈光不正者或轻中度听力损失者取下视力或听力辅助设备时,也会产生“降级”的整体感觉。如果这种降级强度很高,可能会立即引发负面情绪,因为从进化的角度来看,自然环境中缺乏清晰的视觉和听觉可能是危险的,会引发情绪反应倾向。商务远程会议中视频和音频质量下降会导致任务相关信息和社交线索的丢失,增加参与者的压力和挫败感。即使是更细微的降级强度也可能带有负面基调。
感知事件的感知构成中已经包含了感知质量(或感知降级)的感知特征,它具有评价性而非描述性,是一种高阶的评价性感知特征,整合了低阶的描述性质量特征(如“嘈杂度”“响度”),无需后续的认知反思和判断就能立即被体验到。而判断质量是对刺激的感知质量进行有意反思和判断后得到的质量判断,认知评估过程通常会激活各种复杂的联想,因此判断质量更多是感知、概念和情感内容的混合。
感知特征形成了一个描述 - 评价的连续体,评价性感知特征的例子包括“效价”和“愉悦度”,它们都与“质量”相关。QoE定义强调用户的愉悦或烦恼以及对系统、服务或应用的享受,音频技术领域的OLE同样具有评价性甚至情感性,通过让参与者根据对刺激的喜欢、享受或愉悦程度进行评分来操作化。OLE扩展了音频工程领域常用的基本音频质量(BAQ)概念,BAQ有两种定义:一是作为整合多个具体感知特征的“全局”感知特征;二是系统传输或呈现信号的保真度,即参考信号与对象信号之间的所有检测到的差异。
### 1.3 语音质量:形式与内容
自然口语是人类交流信息的主要方式,声学语音信号由一系列最小可区分的语音音素组成,若交换这些音素会改变语义含义则称为音位,它们可连接成音节、单词和句子。语音通信系统通过通信信道(如传统的有线网络或现代的基于IP的网络)实现语音信号的技术中介,包括向单个终端用户的单向传输和多个用户之间的双向通信。一些质量损害因素,如传输路径和终端设备的属性和参数,以及聆听环境中的环境噪声,可能会影响传输语音的感知质量。
必须区分语音信号的声学(表面)形式和(语义)内容。符号学的应用为描述语音质量感知提供了精确的术语:语音构成一个符号系统,语音信号的声学形式是符号载体,人类对语音信号的中央信息处理产生其感知形式,即具有感知(质量)特征的感知事件,包括感知质量的评价特征。如果感知形式触发了相关的(语义)对象,如从感知记忆中检索的具体想象事件(图像)、动机和情绪状态(情感)以及从语义记忆中检索的更抽象的想法(概念),则它作为一个符号起作用,这些想象、情感和概念对象的总和构成(语义)意义。通常,语音符号(如单词)的意义由语言惯例决定,但听觉图标除外,其意义基于与声学源的感知相似性。
语音信号的声学形式(及其质量损害)总是会产生感知(降级)形式,无论是否存在语义内容。然而,内容因素会影响对感知形式的质量判断,例如当参与者更关注任务相关的内容特征而非感知质量特征时。反之,质量因素也可能影响内容,当质量损害施加或修改携带有意义信息的语音信号表面形式时,相应的感知降级会掩盖或改变体验到的语义意义。一般来说,语音传输质量的变化意味着感知形式的变化,但不一定意味着语义意义的变化,而语音内容的变化则会导致感知形式和意义的变化。
语音通信系统和服务的用户根据是被动接收语音信号(单向传输)还是积极参与对话并交换语义信息(双向通信),对(整体)质量的判断有很大不同。在仅聆听的测试场景中,如果参与者没有明确关注内容,内容的影响可能较小;在交互式对话测试场景中,与内容相关的影响因素变得更加重要,因为用户必须提取任务相关的语义信息以跟上交流过程并实现任务目标。此外,仅聆听或对话任务的需求可能会根据潜在的内部信息处理性质以特定方式消耗心理努力。
## 2. 解释性方法
### 2.1 质量预测模型
从实用主义的角度来看,QoE方法的最终目标是在自然主义测试条件下,理想情况下在现实生活的技术使用环境中预测整体质量。为了进行基于仪器或感知的质量估计,过去已经建立了分析性的质量预测模型。使用多元回归模型,整体质量、感知(质量)维度或其他主观结构(如语音可懂度、聆听努力)可作为因变量,不同的质量元素(通过基于信号的测量或QoS性能指标量化)或感知(质量)维度作为预测变量。整体质量是一个整合多个低阶维度的高阶特征,在感知后体验时等同于感知质量,在额外的认知评估后体验时等同于判断质量。实用的质量预测模型有望更有效地评估系统和服务的整体质量,因为可以大大减少甚至完全避免昂贵且耗时的用户实证测试。
### 2.2 心理物理模型
心理物理模型建立了测试刺激的物理特征和其相关感知事件的感知特征之间的正式关系。多维分析将体验质量分解为多个感知质量维度,为此需要进行涉及人类参与者的主观测试,让他们在评级量表上描述对测试刺激的体验,然后通过降维技术分析收集的定量评级数据,以确定行为描述背后的最少感知维度数量。
有两种常见的方法:
- 成对相似性(PS)范式:参与者在连续的双极相似性评级量表上比较刺激对,量表两端分别标记为“非常相似”和“完全不相似”。数据收集后,对收集到的PS评级进行多维标度(MDS)分析,提取的维度的有意义标签通过评估者的主观解释事后得出。
- 语义差异(SD)范式:参与者在一组连续的双极量表上对测试刺激进行评级,量表两端用描述感知特征极端值的反义词标记(如响度:安静 - 响亮)。基于这些SD评级,进行主成分分析(PCA)或因子分析(FA),提取的正交主成分或因子可识别为最初选择的感知特征。在这两种方法中,通常还会通过类别评级范式收集整体质量的实证估计值。
PS和SD范式都需要大量定义明确的测试刺激或刺激类别,且质量损害的类型和强度各不相同。只有这样,通过MDS或PCA/FA进行的降维才能有效减少在特定测量(包括刺激、任务)背景下决定判断质量的维度数量。此外,直接的感知质量可以理解为更具描述性的感知质量维度的评价性整合,单个维度可能与整体质量呈单调正相关或负相关,或者存在对应于最高整体质量的理想点。
感知质量维度的具体类型和数量关键取决于众多人类、系统、上下文和内容相关的影响因素,包括参与者样本(如听力能力、质量评级专业知识)、测试设备(耳机或扬声器类型)、测试环境(房间声学)、刺激材料以及实验范式和降维技术的组合。
向量模型中,一组先验选择的感知维度构成一个欧几里得感知空间,测试刺激在这个空间中用笛卡尔坐标表示的点来代表。空间中还有一个用于外部偏好映射的质量向量,整体质量与点在该向量上的正交投影单调相关,向量指向最佳质量。对于语音传输质量,有多种分析性的多维解决方案,Wältermann及其同事通过结合上述两种方法,在保持“响度”恒定的情况下,确定了“不连续性”“嘈杂度”和“色彩度”三个感知质量维度。
以下是相关概念的总结表格:
|概念|定义|
| ---- | ---- |
|体验质量|对实体感知构成与其预期或期望构成进行认知判断的结果|
|质量元素|在规划、执行或使用阶段影响产品质量的客观、可测量参数|
|质量特征|与实体质量相关的、主观体验的组成部分|
|感知质量|感知事件中直接体验到的、评价性的质量特征|
|判断质量|对感知质量进行认知评估后得到的质量判断|
|整体质量|整合多个低阶维度的高阶特征|
下面是语音质量相关因素的mermaid流程图:
```mermaid
graph LR
A[语音通信] --> B[单向传输]
A --> C[双向通信]
B --> D[单向语音传输质量]
C --> E[通信便利性]
C --> F[对话有效性]
D --> G[质量元素]
D --> H[感知质量特征]
G --> I[数据包/帧丢失率]
G --> J[信噪比]
G --> K[传输带宽]
H --> L[不连续性]
H --> M[嘈杂度]
H --> N[色彩度]
```
### 2.3 功能模型
除了心理物理模型,还有一种用于建模感知和判断质量的方法是功能模型。功能“盒子 - 箭头”模型旨在详细说明内部过程、表征、感官信号和行为反应之间的关系,明确它们在信息处理不同阶段的功能角色,即哪些过程为其他过程提供输入,以及感官信号、表征和行为反应如何作为过程的输入和输出,从而揭示信息在内部处理链中的流动。
在这个内部处理链的某个阶段,会形成主观的质量感。鉴于这些内部过程主要具有“心理”性质,相关理论认为有用的理论应基于更高层次的功能(即心理)描述,并结合对底层神经生理学的了解进行约束和校准。
以下是功能模型信息处理流程的mermaid流程图:
```mermaid
graph LR
A[感官信号] --> B[内部过程1]
B --> C[内部表征1]
C --> D[内部过程2]
D --> E[内部表征2]
E --> F[行为反应]
B -.-> G[主观质量感]
D -.-> G
E -.-> G
```
### 2.4 不同模型的比较与应用场景
心理物理模型和功能模型在建模感知和判断质量方面各有特点,适用于不同的应用场景。
|模型类型|特点|应用场景|
| ---- | ---- | ---- |
|心理物理模型|通过建立物理特征和感知特征的关系,利用多维分析和降维技术确定感知质量维度,可进行整体质量的实证估计|适用于需要明确感知质量维度与物理刺激之间关系的场景,如评估不同音频设备对语音质量的影响,通过改变物理参数(如比特率、信噪比等)来观察感知质量维度的变化|
|功能模型|强调内部过程、表征、感官信号和行为反应之间的功能关系,详细描述信息处理流程|适用于深入研究人类感知和评价质量的心理机制,如在设计新的语音交互系统时,分析用户从接收到语音信号到做出行为反应的整个过程,以优化系统的交互设计|
在实际应用中,可以根据具体的研究目的和问题选择合适的模型。例如,如果想要预测系统或服务的整体质量,心理物理模型可能更合适,因为它可以通过建立质量元素和整体质量之间的关系进行预测;如果想要理解人类在感知和评价质量过程中的心理机制,功能模型则能提供更详细的信息。
### 2.5 影响语音质量评估的综合因素
语音质量的评估是一个复杂的过程,受到多种因素的综合影响。以下是对这些因素的详细分析:
#### 2.5.1 人类因素
- **听力能力**:不同听力能力的人对语音质量的感知不同,例如听力损失者可能对语音的清晰度和可懂度有更高的要求。
- **质量评级专业知识**:具有质量评级专业知识的人可能更能准确地识别和描述语音质量的各个维度。
#### 2.5.2 系统因素
- **传输路径和终端设备**:传输路径的稳定性、终端设备的性能(如麦克风、扬声器的质量)会直接影响语音信号的传输和呈现质量。
- **网络状况**:网络的带宽、延迟、丢包率等因素会导致语音信号的质量下降,如出现不连续性、嘈杂度增加等问题。
#### 2.5.3 上下文因素
- **测试环境**:测试环境的声学特性(如房间的混响时间、背景噪声水平)会影响语音的感知质量。
- **任务类型**:不同的任务类型(如仅聆听、交互式对话)对语音质量的要求不同,在交互式对话中,用户更关注语音的可懂度和交流的流畅性。
#### 2.5.4 内容因素
- **语音内容的复杂度**:复杂的语音内容(如包含专业术语、生僻词汇)可能会增加理解的难度,从而影响对语音质量的评估。
- **任务相关性**:与任务相关的语音内容会使用户更关注内容本身,而对语音质量的敏感度可能会降低。
以下是影响语音质量评估因素的列表总结:
1. 人类因素
- 听力能力
- 质量评级专业知识
2. 系统因素
- 传输路径和终端设备
- 网络状况
3. 上下文因素
- 测试环境
- 任务类型
4. 内容因素
- 语音内容的复杂度
- 任务相关性
了解这些影响因素有助于在实际应用中更准确地评估语音质量,同时也为优化语音通信系统和服务提供了方向。例如,在设计语音通信系统时,可以根据不同的应用场景和用户需求,针对性地优化系统参数,以提高语音质量和用户体验。
0
0
复制全文
相关推荐









