论文笔记 EMNLP 2021|Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for

hlee-top

已于 2022-05-10 23:45:52 修改

阅读量4.3k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： NLP 论文文章标签：情感分析多模态

于 2022-04-23 18:19:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/o11oo11o/article/details/124310204

NLP 同时被 2 个专栏收录

125 篇文章

订阅专栏

125 篇文章

订阅专栏

该论文提出了一个用于多模态情感分析的新型框架，通过层次互信息最大化来减少信息丢失和噪声干扰。在输入和融合阶段分别进行互信息最大化，以增强模态间的相关性和保留重要任务信息。实验在CMU-MOSI和CMU-MOSEI数据集上验证了方法的有效性，展示了在多模态特征融合中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1 简介

论文题目：Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis
论文来源：EMNLP 2021
组织机构：新加坡科技设计大学
论文链接：https://arxiv.org/pdf/2109.00412.pdf
代码链接：https://github.com/declare-lab/Multimodal-Infomax

1.1 动机

以前的方法进行特征融合可以分为两类：反向传播和特征空间的几何特性。这些方法缺乏控制从原始输入到融合嵌入的信息流，可能会丢失实际信息并引入每种模态携带的意外噪声。

1.2 创新

提出了一种用于多模态情感分析的分级互信息最大化框架。互信息最大化发生在输入级别和融合级别，以减少有价值的任务相关信息的丢失。

2 方法

在这里插入图片描述
模型的整体框架如上图，输入为三个模态的序列(文本、视频、语音)，输出为表示情感强度值y。首先使用特征提取器（视频、语音）和tokenizer（文本）将原始输入处理为数字序列向量。然后包括特征融合和最大互信息两个部分。

2.1 模态编码

文本使用BERT编码，视频和语音使用两个双向LSTM编码，公式如下：
在这里插入图片描述

2.2 模态中互信息最大化

通过多模态输入之间加入互信息，过滤掉与任务无关的模态特定的随机噪声，并尽可能保持跨越所有模态的模态不变内容。
使用q(y|x)估计真实条件分布p(y|x)，H(Y)为Y的熵，使用Gaussian Mixture Model进行计算。

互信息下限最大化的损失函数为：
在这里插入图片描述

2.3 融合中互信息最大化

为了在中间融合结果中捕获模态之间的模态不变信息，在融合结果和输入模态之间进行互信息最大化。

训练步骤分为两个阶段：1)通过最小化负对数 $\mathcal{L}_{lld}$ ，使q(y|x) 近似 p(y|x)。2)将前面的互信息下限作为辅助损失添加到主要损失中，训练公式和过程如下：

3 实验

实验数据集为CMU-MOSI和CMU-MOSEI，数据统计如下表：
在这里插入图片描述

实验结果：
在这里插入图片描述

消融实验：
在这里插入图片描述
loss的变化：

Case study：

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hlee-top 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。