论文信息
题目:Cap4Video++: Enhancing Video Understanding with Auxiliary Captions
Cap4Video++: 利用辅助字幕增强视频理解
作者:Wenhao Wu, Xiaohan Wang, Haipeng Lu, Jingdong Wang, Yi Yang, Wanli Ouyang
论文创新点
- 提出Cap4Video++框架,利用辅助字幕从输入、中间特征和输出得分三个阶段增强视频理解。
- 引入语义对采样、视频-字幕跨模态交互和自适应字幕选择,提升视频和字幕的表示能力。
- 通过互补字幕-文本匹配分支,改进主视频-文本匹配分支的相似度计算,提升模型性能。
摘要
理解视频,尤其是将其与文本数据对齐,是计算机视觉中的一个重大挑战。视觉-语言模型(VLMs)如CLIP的出现,激发了利用其能力进行增强视频理解的兴趣,在性能和效率上均取得了显著进展。然而,现有方法往往忽视了用户生成的关键元数据,如视频标题。在本文中,作者提出了Cap4Video