（七十八）：Co-attending Free-form Regions and Detections with Multi-modal Multiplicativ

Laura_Wangzx

于 2022-02-16 11:54:02 发布

阅读量430

点赞数

CC 4.0 BY-SA版权

分类专栏： “情感分析”研究方向论文-精读总结文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37486501/article/details/122412543

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 ¥19.90 ¥99.00

订阅专栏

本文提出了一种新型深度神经网络，结合自由形式区域与检测框注意机制，通过多模态乘法特征嵌入，提升视觉问答(VQA)的准确性。该模型在COCO-QA和VQA数据集上表现优于现有方法，展示了联合两种注意机制和有效特征融合的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（七十八）：Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for

Abstract
1. Introduction
2. Related Work
3. Method
4. Experimental Setup
5. Conclusions

出处：AAAI 2018: 7218-7225
代码：https://github.com/lupantech/dual-mfa-vqa.
题目：基于多模态乘性特征嵌入的联合参与自由区域与视觉问答检测
主要内容：基于问题、整体图像和检测框的自由形式区域和检测框共同参与，更好地利用互补信息解决VQA任务。网络具有两个具有乘法特征嵌入方案的注意分支，一个分支参与自由形状图像区域，另一个分支参与与问题相关的视觉特征编码的检测框。

Abstract

近年来，视觉问答(VQA)任务在人工智能领域得到了越来越多的关注。现有的VQA方法主要采用视觉注意机制，将输入的问题与相应的图像区域进行关联，从而实现有效的问题回答。目前研究较多的是基于自由形状区域的视觉注意机制和基于检测的视觉注意机制，前者关注自由形状图像区域，后者关注预先设定的检测盒区域。我们认为，这两种注意机制能够提供互补的信息，并应进行有效的整合，以更好地解决VQA问题。
在本文中，我们提出了一种新的深度神经网络，该网络集成了两种注意力机制。我们提出的框架通过多模态乘法特征嵌入方案，有效地融合了自由形状图像区域、检测框和问题表示的特征，从而联合参与与问题相关的自由形状图像区域和检测框，从而实现更准确的问题回答。
本文提出的方法在两个公开可用的数据集COCO-QA和VQA上进行了广泛的评估，并优于最先进的方法。源代码可从ht

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laura_Wangzx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。