关键帧提取技术调研

1. 问题背景

某个视觉检测任务中,每次对一个目标进行检测,都可以捕获到该目标的n帧,如何找到最有效的1-3帧用于算法检测?

2. 调研方向

查资料发现有2个技术路线是和我的问题比较相关的

  1. 多光谱或高光谱的通道提取技术。2020年的综述论文
  2. 视频摘要技术。2023年的综述论文

3. 概念

3.1. 什么是通道提取

波段名称波长范围(μm)
蓝色(B)0.45 – 0.495
绿色(G)0.495 – 0.570
红色(R)0.620 – 0.750
可见光0.38 – 0.75
近红外(NIR)0.75 – 1.4
中红外(MIR)1.4 – 3
中红外(MIR)3 – 8
长波红外(LWIR)8 – 14

常用的可见光摄像头包含RGB一共3个通道,而多光谱仪器捕获的图像则可能包含几十至几百个通道,如此多通道的图像中,有许多通道信息是冗余的,有效去除冗余通道即为通道提取

3.2. 什么是视频摘要

视频摘要技术(Video Summarization) 是指从原始长视频中自动提取出具有代表性的重要片段,以生成一个简洁、紧凑但能保留核心信息的“摘要视频”的技术。它的目标是在不牺牲视频主要内容的前提下,大幅缩短观看时间,提高信息获取效率。

4. 通道提取技术分类

以下是根据《A survey of band selection techniques for hyperspectral image classification》整理的通道提取技术我认为比较好的分类维度对应的表格:


策略名称描述/核心思想优点缺点代表方法 / 应用场景
Ranking(排序式)逐个评估每个波段的得分(如熵、互信息、方差等),排序后选择得分最高的前 k k k 个波段- 实现简单
- 计算效率高
- 易扩展到大数据集
- 忽略波段间相关性
- 可能选择冗余波段
信息熵法、互信息排序、最大方差、ID 信息散度、ReliefF 等
(适合初步筛选、无监督场景)
Clustering(聚类式)基于波段间相似性将所有波段分组,从每个簇中选取代表波段(如簇中心)- 可消除冗余波段
- 考虑波段间相关性
- 对初始聚类参数敏感
- 聚类复杂度较高
K-means、模糊 C 均值、谱聚类、层次聚类等
(常用于无监督方法)
Greedy Search(贪心搜索)迭代构建子集,每步添加或删除一个波段,使当前子集评估指标最优(如分类精度)- 较高效率
- 适用于监督任务
- 实现简单
- 易陷入局部最优
- 无法回溯(部分变种可缓解)
SFS(顺序前向选择)、SBE(顺序后向消除)、SFFS、SBFS 等
(常配合分类器,如SVM)
Metaheuristic(组合优化 / 元启发式)把波段选择看作组合优化,用启发式算法搜索最优子集(用分类器评估适应度)- 能跳出局部最优
- 适合大规模高维问题
- 计算成本高
- 搜索结果不确定,受参数影响
遗传算法(GA)、粒子群(PSO)、蚁群优化(ACO)、灰狼优化(GWO)、差分进化(DE)等
(适合包裹式、混合式策略)
Exhaustive Search(穷举搜索)枚举所有可能的波段组合,选择性能最优的子集- 可获得全局最优解- 计算复杂度指数级
- 仅适用于小规模问题
理论上最优方案,实际应用极少
(仅用于基准评估、变量数 < 15)

5. 视频摘要技术分类

以下是根据《A comprehensive study of automatic video summarization techniques》整理的视频摘要技术我认为比较好的分类维度对应的表格:


5.1. 按摘要类型分类

摘要类型描述特点/适用场景
静态摘要以关键帧集合形式呈现摘要。适用于快速浏览、摘要阅读、低资源场景。
动态摘要通过短视频片段拼接构成的摘要,包含视觉和音频。适用于信息丰富、保留时间流的场景,如赛事、电影等。

5.2. 按用户定制性分类

摘要类型描述特点/适用场景
通用摘要提取视频中对所有观众都重要的内容,不依赖用户偏好。快速总结,适用于通用检索、通用视频库。
用户定制摘要根据用户兴趣、查询或偏好生成摘要。适用于个性化推荐、查询摘要、特定兴趣场景。

5.3. 按时间约束分类

方法类型描述特点/适用场景
离线方法视频录制完毕后统一处理。高质量摘要生成,适用于后期处理场景。
在线/实时方法与视频录制同步处理。实时响应,适用于直播、监控、交互系统。

5.4. 按视频数量分类

类型描述特点/适用场景
单视频摘要针对单个视频生成摘要。普通视频分析,适用范围广。
多视频摘要针对多个视频提取共同重要内容生成摘要。适用于事件聚合、搜索相关视频片段。
多视角摘要针对同一事件由多个摄像头拍摄的不同视角生成摘要。适用于监控、多机位场景,如会议、运动赛事。

5.5. 按视频领域分类

类型描述特点/适用场景
通用视频摘要不依赖特定领域知识,适用于各类视频。家庭视频、娱乐视频等通用场景。
领域特定摘要针对特定类型视频,结合领域知识生成摘要。体育、医疗、无人机、监控等专业视频,利用特定规则或信息辅助。

5.6. 按方法论分类

方法类型子类型描述特点/适用场景
传统方法-使用聚类、图算法等传统技术提取摘要。不依赖深度模型,适合资源受限或小规模场景。
机器学习方法-使用如SVM、决策树等判别模型学习重要性。可处理结构化特征,需少量标注数据。
深度学习方法监督学习使用人工标注训练深度网络生成摘要。高质量输出,适用于有标签数据的视频摘要系统。
弱监督学习利用不完整或粗粒度标注(如主题标签)进行训练。减少标注成本,适用于大规模视频库。
无监督学习无需任何标签,通过聚类、生成模型等方法自动选取关键内容。易扩展,适用于难以标注的开放场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值