多模态常见任务介绍

本文探讨了视觉问答(VQA)、图像描述、文本生成图像、视觉定位和文本图像检索等AI技术,介绍了它们的目标和应用实例,如TDIUC、GroundedCaptioning和NLVR2,展示了自然语言在视觉理解中的关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

视觉问答(VQA, Visual Question Answer)

目标:给定一个图片以及问题,需要理解图片的内容并用自然语言回答问题。

例如,图像中发生什么事,人物穿的衣服是什么颜色,图像中有多少架飞机等。

例如,TDIUC(Task Directed Image Understanding Challege) 是一个任务导向的图像理解数据集。作者收集了 VQAv2 等数据集,并进一步划分为 12 个子任务

 图像描述(图像字幕)(Image Captioning)

目标:只给定一个图像,生成自然语言描述图像的内容。

Text-to-Image generation(文生图)

给定文字生成图像

视觉定位(Visual Grounding) 

目标:给定一个图像以及相应的自然语言表述,然后在图像中定位文本表述对应的物体或区域。

Grounded Captioning

目标:给定一个图像,用自然语言描述图像的内容,并定位所有提到的实体的位置或区域。可以看做是 Image Captioning + Phrase Localization 的组合。

如下图 Fig.1 所示为一个 Grounded Captioning 示例(来自 Flickr30K),可以看出,即输出了描述,又输出了对应实体的位置

image-to-text retrieval(TR)

text -to-image retrieval(IR)

NLVR2(Natural Language for Visual Reasoning

预测文本是否描述了输入的两幅图像

### VLA Grounding 的定义 视觉语言对齐(Vision-Language Alignment, VLA)中的 grounding 是指将自然语言描述与具体的视觉场景或对象建立关联的过程。这一过程的核心目标是让模型理解并定位到图像中特定的语言所对应的区域或实体[^1]。 具体来说,VLA grounding 可以被看作是一种跨模态的任务,其中模型需要学习如何将输入的文本映射到相应的视觉特征空间。例如,在给定一张图片和一段文字的情况下,模型应能识别出哪些部分的图像对应于该段文字的内容。 ### VLA Grounding 的实现方法 #### 跨模态表示学习 为了实现有效的 grounding,许多现代 VLA 模型采用预训练策略来联合优化视觉和语言两种模态的数据表示。这些模型通常会利用大规模图文配对数据集进行训练,从而使得它们能够在两个不同的领域之间找到共同的语义空间[^1]。 一种常见的做法是在 Transformer 架构的基础上扩展,构建一个多头注意力机制,允许视觉 token 和文本 token 直接相互作用。这种方法有助于捕捉两者之间的细粒度关系,并促进更精确的地物绑定能力。 ```python class CrossModalAttention(nn.Module): def __init__(self, dim_text, dim_image, num_heads=8): super().__init__() self.attention = nn.MultiheadAttention(dim_text + dim_image, num_heads) def forward(self, text_features, image_features): combined = torch.cat([text_features, image_features], dim=-1) attn_output, _ = self.attention(combined, combined, combined) return attn_output.split([text_features.size(-1), image_features.size(-1)], dim=-1)[1] ``` #### 对象检测辅助技术 另一种增强 grounding 性能的技术是从现有的计算机视觉成果出发,比如使用预先训练好的物体探测器提取候选框作为潜在的目标位置。随后,通过比较每个边界框内的局部特征向量与全局句子嵌入间的相似性得分,挑选最匹配的一组结果返回给用户。 此流程可能涉及计算余弦距离或其他形式的距离测度函数,以此评估不同组合下的契合程度: \[ \text{score}(i,j)=\frac{\vec{v}_j . \vec{w}_i}{||\vec{v}_j|| ||\vec{w}_i||} \] 这里 \( i \) 表示第几个单词序列片段;\( j \) 则代表当前考虑的是哪一个矩形包围圈。 ### 小结 综上所述,VLA grounding 不仅仅是简单的标注任务,而是融合了高级别的认知推理以及基础层面的操作执行两项功能于一体的综合性挑战。它依赖强大的算法框架支持,同时也受益于丰富的外部资源引入,如高质量的大规模训练样本集合等要素共同推动发展进步[^1].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值