多模态融合领域 —《Predictive Dynamic Fusion》论文精读分享01

预测性动态融合

Predictive Dynamic Fusion

论文背景:

        多模态融合在联合决策系统中对于做出全面判断至关重要。由于多模态数据在开放环境中发生变化,动态融合应运而生,并在众多应用中取得了显著进展。然而,大多数现有的动态多模态融合方法缺乏理论保证,并且容易陷入次优问题,导致不可靠性和不稳定性。为了解决这个问题,我们提出了一种用于多模态学习的预测性动态融合(Predictive Dynamic Fusion,PDF)框架PDF 为未来的研究提供了新的理论基础和方法启示。

代码:https: //github.com/Yinan-Xia/PDF.

论文核心观点概括:

        文章通过对泛化误差的上界理论公式的角度出发,得出“ 降低泛化误差上界的关键在于融合权重与当前模态损失之间的负协方差,以及融合权重与其他模态损失之间的正协方差 ”的降低泛化误差上界的方法。即,要减小泛化误差上界,就要保持“融合权重与当前模态损失之间的负协方差、融合权重与其他模态损失之间的正协方差”,在这个理论支持下,就可以用每个模态的损失值来得到融合权重,进行多模态融合。

        但由于当收敛时损失被最小化,直接预测损失值是不稳定的。所以在具有交叉熵损失的跨模态分类设置中,可以将损失值的预测转换为真实类标签的置信度。针对使用置信度的可行性,论文也进行了证明,证明了置信度和融合权重,满足从泛化误差中得出的相关性。最终论文使用每个模态的置信度来得到融合权重,进行多模态融合。此外,论文进一步提出了一种相对校准策略,以校准预测的融合权重以应对潜在的不确定性。在多个基准测试上的广泛实验证实了PDF的优越性。

论文做的工作梳理:

        论文从泛化误差的上界(generalization error upper bound) 出发,推导出一种为每个模态预测共信念(Co-Belief) 的机制。这种共信念能够反映不同模态之间的共识程度,从而在融合时更准确地衡量各模态的可靠性。

        此外,还引入了相对校准(Relative Calibration) 机制,通过对潜在不确定性进行校准,进一步提升模型的鲁棒性和可解释性。PDF在多个基准方法中表现出色,在准确率(Accuracy)方面均优于 Late Fusion、DynMM 和 OMF 等方法;即使在噪声环境下(Noise: 0, 5, 10),PDF依然保持稳定且领先的性能,显示出强大的抗噪能力。

01 多模态数据融合的挑战:

        可靠的多模态学习的一个根本挑战是如何精确估计每种模态对多模态系统的贡献。在现实(开放环境)中,不同模态的数据质量及其固有关系往往随着开放环境的变化而变化,即每种模态的主导地位是动态变化的。模态间关系失衡或高噪声会造成,多模态学习依赖于部分模态,甚至是单一模态,而非多模态数据。而在数据量有限时,多模态学习模型并不总是优于其单模态对应模型。应运而生的动态融合,根据数据质量改变和模态间关系的改变,适应数据质量的改变,及时更新融合权重,能实现更鲁棒的多模态融合。

02 论文提出新的解决方案

       为了解决这个问题,论文重新审视了模态融合权重与泛化损失之间的关系。基于Mohri等人(2018年)给出的的泛化误差上界公式,论文进一步推导出了:减少泛化误差界限的关键在于融合权重与当前模态损失之间的负协方差,以及融合权重与其他模态损失之间的正协方差。

(注)Mohri等人(2018年)给出的的泛化误差上界公式

        由于在“固定模型结构、相同模型假设空间、相同训练集大小”的前提下,前两项为固定值,降低泛化误差上界的关键在于融合权重与当前模态损失之间的负协方差,以及融合权重与其他模态损失之间的正协方差。   即保持Mono-Covariance项为负,Holo-Covariance为正,是的论文只从符号角度考虑减少泛化误差上界的策略

        Mono-Covariance表示“融合权重与当前模态损失之间的协方差”,Holo-Covariance表示“融合权重与其他模态损失之间的协方差”。

        基于“减少泛化误差界限 = 保持融合权重与当前模态损失之间的负协方差 + 保持融合权重与其他模态损失之间的正协方差 ”,可以想到用每个模态的损失值来表示融合权重,进行多模态融合。

        但论文进一步发现,直接预测损失值是不稳定的,因为当收敛时损失被最小化

(也就是在训练过程中,模型的核心任务就是最小化损失。到了训练后期,不同模态的损失值会变得非常接近,损失值都很小且差异细微。对这些非常接近的损失值进行估计时产生的微小误差也可能引起权重分配的显著的扰动

,且损失值可能从零到正无穷大,这使得其精确预测变得相当具有挑战性

(也就是损失值巨大动态变化范围,会使权重归一化困难如果有一个模态的预测损失突然出现一个极大的异常值,而其他模态的损失都很小,那么经过softmax归一化后,这个异常模态的权重会几乎为0,其他所有模态的权重会几乎为1)。

        论文锚定“具有交叉熵损失的多模态分类”问题,用真实类标签的概率( p𝑡𝑟𝑢𝑒 ∈ [0, 1])替代损失,该概率与损失成反比,表示为ℓ = − log(p𝑡𝑟𝑢𝑒),同时让替换后的p𝑡𝑟𝑢𝑒满足从泛化误差中得出的相关性。

       从 “某模态融合权重与该模态概率保持正协方差,与其他模态概率保持负协方差”出发,这也相当于多模态系统中的融合权重不应仅考虑单模态,还应被强制整合其他模态的状态,论文定义了Mono-Confidence单模态置信度,Holo-Conf 则考虑了其余模态对当前模态的的影响。

        该模态总融合权重:协作信念(Co-Belief),可预测的Mono-Confidence和Holo-Confidence的线性组合,它可以被视为最终的融合权重

        可以证明融合权重Co-Belief,满足与该模态概率保持正协方差,与其他模态概率保持负协方差。

        具体流程见下图:

03 相对校准策略 —— 校准预测的Co-Belief

        预测的不确定性:在开放环境中,数据质量通常会动态变化,从而导致预测的 Co-Belief 中存在潜在的不可避免的不确定性

        接下来就要想办法衡量这个不确定性,论文中用m个模态的分布均匀性(Distribution Uniformity) Du^{m} ,衡量该模态Co-Belief^{m} 的不确定性。

        其理论依据可以理解为均匀分布通常表明高不确定性,而尖峰分布则意味着预测中的低不确定性。故可将Du^{m}定义为:

        这样DU取值越大,不确定性越小,反之,不确定性越小。

        接下来用相对校准(RC)来校准每个模态的相对不确定性,因为多模态系统中不同模态的不确定性应该是相对的,即每个模态的不确定性应该随着其他模态不确定性的变化而动态变化。 一个模态应该动态地感知其他模态的变化,并修改其相对于多模态系统的贡献。

        基于此定义非对称校准项k^{m}校准共信念Co-Belief

        最终在多模态系统中使用每个模态的CCB作为其融合权重:

验证PDF框架的有效性:
  • 聚合协方差(AC):验证融合策略是否能够降低模型的泛化误差上界GEB,当 AC(f) < 0时,认为 f GEB降低了。

  • GEB减少比例(GDP):衡量融合策略的能力

验证结果绘图:

        论文在在NYU Depth V2数据集上评估了Mono-Confidence、Co-Belief和Calibrated Co-Belief作为融合权重的有效性,以确定它们在最小化泛化误差上界方面的有效性。

        (a)、(b)或(c)中柱状图是Mono-Confidence、Co-Belief和Calibrated Co-Belief作为融合权重时AC的数值分布情况。

        (a)、(b)或(c)中的饼图黄色部分显示了在不同噪声水平(0、5和10)下,每种权重形式对泛化误差界减少比例(GDP)的影响。Calibrated Co-Belief达到了最高的GDP,从而实现了最佳的泛化效果。(d)展示了不同融合策略和噪声强度下的GDP。

( 新手创作,艰辛不易,乞求多多关注支持 ~ )

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MMlab 笔记侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值