论文笔记 EMNLP 2021|Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for

该论文提出了一个用于多模态情感分析的新型框架,通过层次互信息最大化来减少信息丢失和噪声干扰。在输入和融合阶段分别进行互信息最大化,以增强模态间的相关性和保留重要任务信息。实验在CMU-MOSI和CMU-MOSEI数据集上验证了方法的有效性,展示了在多模态特征融合中的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 简介

论文题目:Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis
论文来源:EMNLP 2021
组织机构:新加坡科技设计大学
论文链接:https://arxiv.org/pdf/2109.00412.pdf
代码链接:https://github.com/declare-lab/Multimodal-Infomax

1.1 动机

  • 以前的方法进行特征融合可以分为两类:反向传播和特征空间的几何特性。这些方法缺乏控制从原始输入到融合嵌入的信息流,可能会丢失实际信息并引入每种模态携带的意外噪声。

1.2 创新

  • 提出了一种用于多模态情感分析的分级互信息最大化框架。 互信息最大化发生在输入级别和融合级别,以减少有价值的任务相关信息的丢失。

2 方法

在这里插入图片描述
模型的整体框架如上图,输入为三个模态的序列(文本、视频、语音),输出为表示情感强度值y。首先使用特征提取器(视频、语音)和tokenizer(文本)将原始输入处理为数字序列向量。然后包括特征融合和最大互信息两个部分。

2.1 模态编码

文本使用BERT编码,视频和语音使用两个双向LSTM编码,公式如下:
在这里插入图片描述

2.2 模态中互信息最大化

通过多模态输入之间加入互信息,过滤掉与任务无关的模态特定的随机噪声,并尽可能保持跨越所有模态的模态不变内容。
使用q(y|x)估计真实条件分布p(y|x),H(Y)为Y的熵,使用Gaussian Mixture Model进行计算。

互信息下限最大化的损失函数为:
在这里插入图片描述

2.3 融合中互信息最大化

为了在中间融合结果中捕获模态之间的模态不变信息,在融合结果和输入模态之间进行互信息最大化。

训练步骤分为两个阶段:1)通过最小化负对数 L l l d \mathcal{L}_{lld} Llld,使q(y|x) 近似 p(y|x)。2)将前面的互信息下限作为辅助损失添加到主要损失中,训练公式和过程如下:

3 实验

实验数据集为CMU-MOSI和CMU-MOSEI,数据统计如下表:
在这里插入图片描述

实验结果:
在这里插入图片描述

消融实验:
在这里插入图片描述
loss的变化:
在这里插入图片描述
Case study:
在这里插入图片描述

<think>好的,用户需要查找一篇关于通过图基重排序改进RAG的论文。首先,我需要确认用户的需求是什么。他们可能是在研究RAG(检索增强生成)的优化方法,特别是如何利用图结构来进行重排序,提升检索效果。用户提到“图基重排序”,这可能指的是利用图算法或图神经网络对检索到的文档进行重新排序,以提高生成质量。 接下来,我应该回忆一下相关的文献。RAG本身结合了检索和生成,但传统方法可能存在检索结果不够精准的问题,重排序技术可以优化这一点。图结构在信息检索中的应用,比如构建文档之间的关系图,或者利用图嵌入来捕捉文档间的语义关联,可能是一个研究方向。 然后,我需要检查提供的引用内容。引用[1]提到高级RAG技术,包括模块化框架,但没有直接提到图基重排序。引用[2]讨论了RAG的发展和应用场景,但同样没有具体提到图方法。引用[3]是一个原型应用的链接,可能不涉及论文内容。因此,提供的引用中可能没有直接相关的论文,需要引导用户去外部数据库查找。 不过,用户可能希望我根据现有知识推荐可能的论文方向或方法。例如,图神经网络(GNN)在文档重排序中的应用,或者知识图谱增强的RAG系统。此外,可以建议用户搜索关键词如“RAG graph-based reranking”、“GNN for document reranking”或“knowledge graph RAG”来查找相关论文。 另外,考虑到RAG的优化通常涉及检索器和生成器的协同改进,图基方法可能在检索阶段构建文档间的关系,或者在重排序阶段利用这些关系调整顺序。例如,使用PageRank算法或社区检测来评估文档的重要性,进而重新排序。这样的方法可能在信息检索领域有相关研究,用户可能需要查阅最近的顶会论文,如ACL、EMNLP、SIGIR等。 最后,确保回答符合用户的要求:结构清晰、分步解决问题,并引用提供的资料。由于提供的引用中没有直接相关的论文,需要如实告知,并给出建议的搜索方向和关键词,帮助用户自行查找。同时生成相关问题,如优化RAG的其他技术、图基方法的应用场景等。</think>根据您对图基重排序改进RAG的论文需求,结合当前RAG技术发展,以下是分步解答: 1. **研究领域定位** 图基重排序属于RAG技术中检索优化模块的改进方向,需聚焦"检索增强生成"与"图神经网络"交叉领域。引用[1]提到的模块化RAG框架中,重排序模块可作为独立算子存在,这为图算法的集成提供了理论支持[^1]。 2. **推荐搜索策略** - 关键词组合:`"RAG" + ("graph neural network" | "knowledge graph") + reranking` - 会议筛选:优先查看ACL/EMNLP/NAACL/SIGIR近三年论文 - 论文预印平台:arXiv.org使用筛选条件`cs.CL + cs.IR` 3. **相关技术线索** 虽然现有引用未直接提及图基重排序论文,但引用[2]指出模块化RAG支持路由、调度和融合机制的创新设计[^2],这与图结构处理节点关系的能力高度契合。例如: - 使用图注意力机制建模文档间语义关联 - 基于社区发现算法优化检索结果聚类 $$ \text{NodeScore}(d_i) = \sum_{d_j \in N(d_i)} \alpha_{ij}Wv_j $$ 其中$d_i$为文档节点,$N(d_i)$是其邻居节点集 4. **实验性验证方法** 引用[3]提供的Mememo平台支持快速原型开发[^3],可尝试: ```python # 伪代码示例:图基重排序实现 def graph_reranking(docs): graph = build_knowledge_graph(docs) scores = page_rank(graph) return sort_by_score(docs, scores) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hlee-top

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值