多模态预训练中的Prompt（ALPRO，Frozen）_align and prompt: video-and-language pre-training -CSDN博客

本文链接：https://blog.csdn.net/qq_39388410/article/details/122911205

本文综述了多模态预训练中的Align&Prompt模型，提出通过对齐和实体提示解决视频文本不一致性问题。ALPRO结合对比学习和Prompt技术，提升VTC对齐效果与PEM细粒度视觉信息捕捉。后续文章探讨了Frozen LM在多模态少样本学习的应用及Prompt在视觉语言模型中的灵活调整策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以往的文章更新过，背景就不再赘述：

本篇文章继续整理几篇多模态的Prompt文章。

在这里插入图片描述
Align and Prompt: Video-and-Language Pre-training with Entity Prompts
尽管目前的视频文本预训练模型具有良好的性能，但作者认为仍存在一些局限性：

不同模态的特征位于不同的嵌入空间中，这种不对齐会使降低模态交互的效果。
很多预训练任务没有明确建模细粒度区域视觉信息，这对VQA等来说是很重要的。但如果一般使用现成的对象检测器的话，检测器本身有限的词汇量和昂贵的计算成本将成为瓶颈。

因此作者提出ALPRO模型（Align and Prompt），即对齐模态同时给细粒度提示，完整模型结构如上图，主要是结合Prompt和对比学习来实施目标软标签。就pre-training任务的话，除了常规的MLM和VTM（图文对齐）外，新增视频文本对比损失VTC，和提示实体建模PEM。其中，VTC强调捕获视频文本对的实例级对齐，PEM鼓励模型将局部视频区域与文本实体对齐。

VTC在实例级别对齐单峰视频和文本的特征。主要由视频和文本对比损失由两个对称项组成，一个用于视频到文本的分类，一个相反。
然后为了更好地捕获细粒度视觉信息并加强区域实体对齐，PEM模块预测视频中出现的实体。即用和CLIP类似的Prompt方法：A video of { ENTITY }。最后生成的soft标签以对比自监督方式做细粒度对齐。

paper：https://arxiv.org/abs/2112.09583
code：https://github.com/salesforce/ALPRO

在这里插入图片描述
Multimodal Few-Shot Learning with Frozen Language Models
NIPS 2021。这篇文章主要关注few-shot和frozen language model，主要基于prefix-tuning，即Frozen language model之后就可以看成是一种image conditional下的prefix tuning，而连续的prompt特征学习变成是来自于图片的特征，如上图红色方块。需要注意的点主要有：