(一零一):ClipCap: CLIP Prefix for Image Captioning
- 出处:CoRR abs/2111.09734 (2021)
- 代码:https://github. com/rmokady/CLIP_prefix_caption.
- 题目:ClipCap:用于图像标题的剪辑前缀
- 主要内容:想法不错,用到Clip、映射网络mlp和GPT。轻量级标题模型
Abstract
图像标题是视觉语言理解中的一项基本任务,该模型预测给定输入图像的文本信息标题。在本文中,我们提出了一个简单的方法来解决这个问题。
我们使用CLIP编码作为标题的前缀,通过使用一个简单的映射网络,然后微调一个语言模型来生成图像标题。最近提出的CLIP模型包含丰富的语义特征,经过文本上下文的训练,使其最适合视觉语言感知。
我们的关键思想是,与预先训练的语言模型(GPT2)一起,我们获得了对视觉和文本数据的广泛理解。因此,我们的方法只需要相当快速的训练,以产生一个合格的字幕模型。无需额外的注释或预先训练,它可以有效地为大规模和多样化的数据集生成有意义的标题。
令人惊讶的是,我们的方法即使只训练了映射网络也能很好地工作,而CLIP和语言模型都保持冻结状态,允许一个更轻的架构和更少的可训练参数。通过定量评估,我们证明我们的模型在具有挑战性的概念标题和nocaps数据集上取得了与最先进的方法相当的结果,同时它更简单、更快和更轻。我们的代码可在 https://github.com/rmokady/CLIP_prefix_caption.