Kinetics 数据库处理

本文记录了Kinetics行为识别数据库的处理过程,包括mp4到jpg转换及与non-local设置差异对比,涉及数据下载、格式转换、3Dconv与non-local网络输入格式区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文仅为自己研究过程的一个随手记录,部分细节可能没有严格考证

kinetics数据库是当前较大规模的行为识别数据库,400类,training set 246k video, validation set 20k. 由于此前没有接触过视频数据库,而这个库又非常大,处理起来比较麻烦,记录一下。

  1. 下载
  2. mp4 -> jpg

下载

kinetics数据库的页面 , 里面没有现成的video,要根据提供的链接自己一个一个爬…好像看到有人说一个月也没爬多少。。不知真假。。。不过更严重的是里面部分链接已经被视频发布者删除或者转为私密模式了。non-local的作者Xiaolong Wang对kinetics短边按比例缩放到256保存了一个副本,github 链接 ,大约占132G, (原数据集400G+)云盘的下载链接要向他发邮件获取,由于图像大小有所损失,对data augmentation有影响,并且这个数据当时下载的时候大约有5%的video已经不存在了,所以性能会略有损失,(Xiaolong Wang:损失<0.5%)。132G的压缩包,下载速度10M/s,大约用了3.5h。

mp4 --> jpg

kinetics的视频都是mp4格式,non-local 貌似就直接用mp4格式输入网络(作者自述 我没有考证),但是non-local用的是caffe2,我不是很6,所以借助的是CVPR2018上的一篇3D conv的pytorch实现。这篇工作里将mp4处理成jpg进行训练,所以也按帧提取了一下。使用上述project中 utils/video_jpg_kinetics.py 实现。

该过程耗时近24h,读写均在ssd上,拆解成frame的文件所占空间为400G+

比较3D conv与non-local的设置差异

worktrain methodbackboneinputframes/clipdata format
non-localfine-tuneResNet50 + I3D224x22432mp4
3D ResNettrain from scratchResNet50 + 3D112 x 11216jpg

其中3D ResNet所用GPU为8*titanx。

评论 37
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值