1. 问题背景
某个视觉检测任务中,每次对一个目标进行检测,都可以捕获到该目标的n帧,如何找到最有效的1-3帧用于算法检测?
2. 调研方向
查资料发现有2个技术路线是和我的问题比较相关的
- 多光谱或高光谱的
通道提取
技术。2020年的综述论文 视频摘要
技术。2023年的综述论文
3. 概念
3.1. 什么是通道提取
波段名称 | 波长范围(μm) |
---|---|
蓝色(B) | 0.45 – 0.495 |
绿色(G) | 0.495 – 0.570 |
红色(R) | 0.620 – 0.750 |
可见光 | 0.38 – 0.75 |
近红外(NIR) | 0.75 – 1.4 |
中红外(MIR) | 1.4 – 3 |
中红外(MIR) | 3 – 8 |
长波红外(LWIR) | 8 – 14 |
… | … |
常用的可见光摄像头包含RGB一共3个通道,而多光谱仪器捕获的图像则可能包含几十至几百个通道,如此多通道的图像中,有许多通道信息是冗余的,有效去除冗余通道即为通道提取
。
3.2. 什么是视频摘要
视频摘要技术(Video Summarization) 是指从原始长视频中自动提取出具有代表性的重要片段
,以生成一个简洁、紧凑但能保留核心信息的“摘要视频”的技术。它的目标是在不牺牲视频主要内容的前提下,大幅缩短观看时间,提高信息获取效率。
4. 通道提取技术分类
以下是根据《A survey of band selection techniques for hyperspectral image classification》整理的通道提取技术我认为比较好的分类维度对应的表格:
策略名称 | 描述/核心思想 | 优点 | 缺点 | 代表方法 / 应用场景 |
---|---|---|---|---|
Ranking(排序式) | 逐个评估每个波段的得分(如熵、互信息、方差等),排序后选择得分最高的前 k k k 个波段 | - 实现简单 - 计算效率高 - 易扩展到大数据集 | - 忽略波段间相关性 - 可能选择冗余波段 | 信息熵法、互信息排序、最大方差、ID 信息散度、ReliefF 等 (适合初步筛选、无监督场景) |
Clustering(聚类式) | 基于波段间相似性将所有波段分组,从每个簇中选取代表波段(如簇中心) | - 可消除冗余波段 - 考虑波段间相关性 | - 对初始聚类参数敏感 - 聚类复杂度较高 | K-means、模糊 C 均值、谱聚类、层次聚类等 (常用于无监督方法) |
Greedy Search(贪心搜索) | 迭代构建子集,每步添加或删除一个波段,使当前子集评估指标最优(如分类精度) | - 较高效率 - 适用于监督任务 - 实现简单 | - 易陷入局部最优 - 无法回溯(部分变种可缓解) | SFS(顺序前向选择)、SBE(顺序后向消除)、SFFS、SBFS 等 (常配合分类器,如SVM) |
Metaheuristic(组合优化 / 元启发式) | 把波段选择看作组合优化,用启发式算法搜索最优子集(用分类器评估适应度) | - 能跳出局部最优 - 适合大规模高维问题 | - 计算成本高 - 搜索结果不确定,受参数影响 | 遗传算法(GA)、粒子群(PSO)、蚁群优化(ACO)、灰狼优化(GWO)、差分进化(DE)等 (适合包裹式、混合式策略) |
Exhaustive Search(穷举搜索) | 枚举所有可能的波段组合,选择性能最优的子集 | - 可获得全局最优解 | - 计算复杂度指数级 - 仅适用于小规模问题 | 理论上最优方案,实际应用极少 (仅用于基准评估、变量数 < 15) |
5. 视频摘要技术分类
以下是根据《A comprehensive study of automatic video summarization techniques》整理的视频摘要技术我认为比较好的分类维度对应的表格:
5.1. 按摘要类型分类
摘要类型 | 描述 | 特点/适用场景 |
---|---|---|
静态摘要 | 以关键帧集合形式呈现摘要。 | 适用于快速浏览、摘要阅读、低资源场景。 |
动态摘要 | 通过短视频片段拼接构成的摘要,包含视觉和音频。 | 适用于信息丰富、保留时间流的场景,如赛事、电影等。 |
5.2. 按用户定制性分类
摘要类型 | 描述 | 特点/适用场景 |
---|---|---|
通用摘要 | 提取视频中对所有观众都重要的内容,不依赖用户偏好。 | 快速总结,适用于通用检索、通用视频库。 |
用户定制摘要 | 根据用户兴趣、查询或偏好生成摘要。 | 适用于个性化推荐、查询摘要、特定兴趣场景。 |
5.3. 按时间约束分类
方法类型 | 描述 | 特点/适用场景 |
---|---|---|
离线方法 | 视频录制完毕后统一处理。 | 高质量摘要生成,适用于后期处理场景。 |
在线/实时方法 | 与视频录制同步处理。 | 实时响应,适用于直播、监控、交互系统。 |
5.4. 按视频数量分类
类型 | 描述 | 特点/适用场景 |
---|---|---|
单视频摘要 | 针对单个视频生成摘要。 | 普通视频分析,适用范围广。 |
多视频摘要 | 针对多个视频提取共同重要内容生成摘要。 | 适用于事件聚合、搜索相关视频片段。 |
多视角摘要 | 针对同一事件由多个摄像头拍摄的不同视角生成摘要。 | 适用于监控、多机位场景,如会议、运动赛事。 |
5.5. 按视频领域分类
类型 | 描述 | 特点/适用场景 |
---|---|---|
通用视频摘要 | 不依赖特定领域知识,适用于各类视频。 | 家庭视频、娱乐视频等通用场景。 |
领域特定摘要 | 针对特定类型视频,结合领域知识生成摘要。 | 体育、医疗、无人机、监控等专业视频,利用特定规则或信息辅助。 |
5.6. 按方法论分类
方法类型 | 子类型 | 描述 | 特点/适用场景 |
---|---|---|---|
传统方法 | - | 使用聚类、图算法等传统技术提取摘要。 | 不依赖深度模型,适合资源受限或小规模场景。 |
机器学习方法 | - | 使用如SVM、决策树等判别模型学习重要性。 | 可处理结构化特征,需少量标注数据。 |
深度学习方法 | 监督学习 | 使用人工标注训练深度网络生成摘要。 | 高质量输出,适用于有标签数据的视频摘要系统。 |
弱监督学习 | 利用不完整或粗粒度标注(如主题标签)进行训练。 | 减少标注成本,适用于大规模视频库。 | |
无监督学习 | 无需任何标签,通过聚类、生成模型等方法自动选取关键内容。 | 易扩展,适用于难以标注的开放场景。 |