(七十八):Co-attending Free-form Regions and Detections with Multi-modal Multiplicativ

本文提出了一种新型深度神经网络,结合自由形式区域与检测框注意机制,通过多模态乘法特征嵌入,提升视觉问答(VQA)的准确性。该模型在COCO-QA和VQA数据集上表现优于现有方法,展示了联合两种注意机制和有效特征融合的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处:AAAI 2018: 7218-7225
  • 代码:https://github.com/lupantech/dual-mfa-vqa.
  • 题目:基于多模态乘性特征嵌入的联合参与自由区域与视觉问答检测
  • 主要内容:基于问题、整体图像和检测框的自由形式区域和检测框共同参与,更好地利用互补信息解决VQA任务。网络具有两个具有乘法特征嵌入方案的注意分支,一个分支参与自由形状图像区域,另一个分支参与与问题相关的视觉特征编码的检测框

Abstract

近年来,视觉问答(VQA)任务在人工智能领域得到了越来越多的关注。现有的VQA方法主要采用视觉注意机制,将输入的问题与相应的图像区域进行关联,从而实现有效的问题回答。目前研究较多的是基于自由形状区域的视觉注意机制和基于检测的视觉注意机制,前者关注自由形状图像区域,后者关注预先设定的检测盒区域。我们认为,这两种注意机制能够提供互补的信息,并应进行有效的整合,以更好地解决VQA问题。
在本文中,我们提出了一种新的深度神经网络,该网络集成了两种注意力机制。我们提出的框架通过多模态乘法特征嵌入方案,有效地融合了自由形状图像区域、检测框和问题表示的特征,从而联合参与与问题相关的自由形状图像区域和检测框,从而实现更准确的问题回答
本文提出的方法在两个公开可用的数据集COCO-QA和VQA上进行了广泛的评估,并优于最先进的方法。源代码可从ht

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值