videoprism论文速读:一个用于多模态理解与生成的大型视频-文本数据集

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

一、引言

本文介绍了一个大规模的以视频为中心的多模态数据集InternVid,旨在学习强大且可转移的视频文本表示,以用于多模态理解和生成。InternVid数据集包含超过700万段视频,总时长接近76万小时,产生了2.34亿个视频片段,并配有总计41亿个词的详细描述。该研究的核心贡献在于开发了一种可扩展的方法,利用大型语言模型(LLM)自主构建高质量的视频文本数据集,从而展示了其在大规模学习视频语言表示方面的有效性。

研究指出,尽管基于网络规模数据的多模态对比学习在图像文本表示领域取得了成功,但在视频语言领域仍然研究不足。一个关键原因是缺乏高质量的视频语言数据集用于大规模预训练。现有的数据集如HowTo100M、HD-VILA和YTTemporal,其文本是通过自动语音识别(ASR)生成的,尽管规模庞大,但视频与对应文本描述之间的语义相关性较低。

二、相关工作

多模态数据集

多模态数据集对于跨模态学习至关重要。研究通常利用现有的网络图像及其alt-text以及带有ASR字幕的视频进行可扩展学习。LAION-5B的引入使研究人员能够访问数十亿的图像文本对,为大规模图像语言预训练开辟了新途径。对于视频中心的多模态数据集,HowTo100M收集了YouTube上的教学视频并利用相应的ASR字幕学习联合表示。WebVid10M通过提高视频文本对齐质量来解决视频文本相关性问题。

视频理解

预训练大规模视频文本模型并微调用于下游任务已成为视频语言领域的规范。早期技术使用预训练的视觉和语言编码器来获取离线视频和文本特征,而近期方法强调端到端训练的优势。常见的预训练任务包括掩码语言建模、视频文本匹配、视频文本对比学习等。

三、InternVid:一个以视频为中心的多模态数据集

构建大规模高质量视频文本数据集是进行大规模视频语言学习及相关任务的前提。研究确定了三个关键因素:显著的时间动态、丰富多样的语义和强大的视频文本相关性。

数据收集

研究从YouTube收集视频,确保数据的多样性和丰富性,并支持学术使用。总共获取了700万个公开的YouTube视频,平均时长6.4分钟,涵盖16个主题。为了确保数据集的独特性,创建了一个YouTube视频ID数据库,并排除了已在2023年4月之前发布的公共数据集中的视频。

定义动作和查询动机

研究从美国时间使用调查(ATUS)、公共视频数据集和文本语料库中定义了约6.1k个动作短语,并进行了手动和自动的精炼。

收集策略

为了确保数据集的质量,研究建立了特定的爬取规则。仅收集时长在10秒到30分钟之间、分辨率为360P到720P的视频。收集视频时,还收集了其音频、字幕、标题和摘要等多模态数据。

修剪

研究使用场景变化将视频剪辑成更短的片段。直接使用PySceneDetect中的相应过滤器,以27为阈值进行操作。过滤掉静止或极端动态的片段后,共获得2.34亿个视频片段,时长从2秒到30秒以上不等。

多尺度视频字幕生成

为了生成可扩展、丰富和多样的视频字幕,研究采用了两种不同的字幕生成策略。在更细的尺度上,研究简化了视频字幕生成过程,专注于视频剪辑中的常见对象、动作和场景描述。在更粗的尺度上,研究采用单帧偏置假设,仅对视频的中间帧进行字幕标注。

数据集统计和特点

InternVid数据集涵盖了16个不同类别的视频,确保了多样性。与以往研究不同,研究从不同语言的国家选择视频,而不仅仅依赖于一个主要语言环境。视频平均时长为351.9秒,其中49%的视频时长在五分钟以内,26%在五到十分钟之间,只有8%超过二十分钟。

四、ViCLIP:大规模视频文本表示学习

基于CLIP,研究开发了一个简单的视频文本预训练基线模型ViCLIP,包括一个视频编码器(ViT)和一个文本编码器。两个模块都初始化自相应的CLIP组件。研究更新了视频编码器中的原生注意力,使其支持时空注意力,同时保持其他设计元素不变。为了提高学习效率,研究在预训练中对视频应用了掩码。

视频和文本编码器与掩码学习

视频编码器使用标准的ViT,对输入视频应用基于MAE的方法的随机补丁掩码。文本编码器也是一个变压器,后面跟着[67,19]。研究还引入了未掩码视频文本预训练,在预训练过程的末尾,将所有视觉标记输入视频变压器,而不是仅输入掩码标记,以弥合预训练与下游应用之间的差距。

实验结果

ViCLIP在多个视频相关基准测试中表现出色。在零样本动作识别方面,ViCLIP在Kinetics 400/600/700上取得了新的记录。在视频文本检索方面,ViCLIP在多个基准测试中也表现出色,证明了其在增强微调和零样本检索性能方面的关键作用。

五、结论

InternVid数据集旨在推动以视频为中心的多模态研究(包括理解和生成)。它由超过2.3亿个视频剪辑组成,这些剪辑来自700万个高分辨率(720P)的YouTube视频。研究使用现有的模型和多尺度方法生成剪辑级别的描述。研究表明,这些字幕非常有效,大规模的视频文本数据使得跨模态学习和文本到视频生成成为可能。通过使用该数据集进行训练,研究开发了一个使用ViT-L的视频文本表示基线ViCLIP,并简要分析了数据规模如何影响学习到的跨模态嵌入。除了感知任务外,研究表明,当使用基于美学评分的剪辑子集时,InternVid提高了文本到视频的生成性能。

InternVid数据集的技术汇总如下表所示:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值