目录
高光谱图像子带选择
《高光谱遥感图像波段选择研究进展综述》
doi:10.3778/j.issn.1002-8331.2111-0403
1 高光谱遥感图像的波段选择策略
高光谱图像数据降维有特征提取和特征选择两种方法。
-
高光谱数据降维的两种方法:
- 特征提取通过数学变换将光谱波段重新组合、压 缩和优化。
- 特征选择又称波段选择,通过从原始波段中 选择部分特征波段实现降维,同时使波段的物理信息得 以保留,在后续分析中能够揭示数据潜在的模式机理。
-
波段选择(特征选择)的目的:-----其最终目标是从原始波段中选择出信息量大、相关性小、类别可分性好的少数特征波段组合[8]。
-
高光 谱遥感图像的波段选择面临巨大挑战:
- 一方面,由于信 息量大的波段往往相关性也大,使得波段选择难以同时 满足所有约束条件,导致选择的波段组合在实际应用中 不能获得预期的效果;
- 另一方面,数据结构的高度非线 性、数据量庞大等原因使得波段选择算法复杂,数据处 理耗时长,效率较低。基于以上原因,高光谱图像数据 的波段选择需要建立正确的评价准则、数学表达模型和 算法以准确地反映数据的内在本质,提高数据处理效率。
-
高光谱遥感图像波段选择采用的策略主要包括:
- (1)以评价准则为依据的波段选择;
- 以信息量作为波段选择的标准,选择信息总量最大的波段子集。通常采用信息熵、互 信息、交叉熵、联合信息熵、信息散度、方差、协方差矩 特征值等来构建信息量的评价指标。
- 以类别可分性作为波段选择标准,期望选取的波段子集有利于研究地物的分类识别。衡量类间可分性大小常以距离来度量,典型的度量指标有离散度、B 距离(Bhattacharyya distance)、JM 距离(Jeffreys Matusita distance)等。
- 以波段间 的相关度作为波段选择的标准,选择相关性最弱的波段 子集,以减小信息冗余。常用光谱相关系数、光谱角、光 谱信息散度和正交投影散度等作为度量指标
- (2)以特征选择 方式为依据的波段选择;
- 基于搜索的波段选择,其实质是准则函数 的优化问题,其中准则函数和搜索策略是此法的关键。 准则函数与波段选择评价准则相关,是优化的目标。
- 基于排序的波段选择,按照评价准则对所有波段的 重要性进行量化并排序,根据排序指标阈值或指定的波段个数选择优先级高的光谱波段。
- 基于聚类的波段选择,通过将原始波段按某种指标划分为多个类 簇,从各类簇中选择与聚类中心最近的波段组成最终波段子集。
- (3)以训练样本为依据的波段 选择;
- 监督波段选 择利用标记的训练样本参与波段选择过程,使得选出的 波段子集具有较好的实际应用性能。
- 非监督 波段选择不需要除影像本身之外的其他先验性的训练 样本信息,只根据影像本身的特点进行选择。
- (4)以与应用模型的关系为依据的波段选择。
- 过滤式波段选择,该方法 先按评价指标对高光谱数据进行波段搜索,然后再训练 模型学习器[35],波段选择过程与应用模型的学习算法无 关,二者之间相互独立。这种方法相当于先用波段选择 过程对数据进行“过滤”,再用过滤后的特征来训练模 型,特点是计算量小,速度快,但波段选择结果与应用模 型所需性能偏差较大。
- 封装式波段选择,该方法将应用模型的建立与波段搜索的过程结合起来,利用模型学习算法的训练准确率作为波段子集的评价准则。因而应用模型性能精度较高,波段选择结果偏差小,但每次波 段子集评价都需要重新训练学习器,运算复杂度高,计 算开销大,不适用于大规模数据集。
- 嵌入式波段选择,该方法在应用模型学习器的训练过程中通过优化目 标函数自动完成波段选择。其性能介于过滤式和封装式法之间。
- (1)以评价准则为依据的波段选择;
2 高光谱图像波段选择的研究进展
- 评价准则的变化
- 波段选择方法中空、谱信息的结合
- 半监督学习用于高光谱图像波段选择
- 基于稀疏表达的波段选择
- 智能搜索算法的应用
- 深度学习在波段选择中的探索
3 高光谱图像波段选择面临的挑战与未来发展趋势
- (1)波段选择算法的泛化能力
- (2)波段数量的确定
- (3)所选波段的物理意义
《A Review of Unsupervised Band Selection Techniques》
🔤着眼于土地覆盖分类的背景,可以确定一个更具体的问题,与 HSI 的极高维数有关:众所周知的休斯效应,或所谓的维数诅咒🔤
Basically, DR(dimensionality reduction) techniques can be categorized into two types: feature extraction (FE) and feature selection (FS)
基本上,DR 技术可以分为两种类型:特征提取 (FE) 和特征选择 (FS)。在 FE 中,原始的高维数据被转换为低维数据,以减小其大小并增加不同对象之间的类可分性 [1]。一些流行的 FE 方法包括主成分分析 (PCA) [2]、核 PCA [3]、独立 CA (ICA) [4]、最小噪声分数 [5]、判别分析 FE、决策边界 FE [6] 和非参数加权 FE。通过应用这些有限元技术,获得了一组全新的约化能带,完全改变了原来的能带特性,形成了一组合成能带。
对于 FS 和 BS 方法,从原始 HSI 中选择信息波段的子集。尽管术语 FS 和 BS 听起来相似,但它们的“邻接”和带内“空间”信息存在差异。FS 的过程通常不依赖于有关相邻特征的关联信息,而在高光谱成像的情况下,每个波段代表从单个仪器在等距波长范围内采集的图像,从而在相邻波段 [7] 和带内空间特性之间提供很强的相似性。对于 HSI 降维,FE 和 BS 方法通常单独使用,但也可以一起使用它们。
子带选择算法可按不同的维度进行分类。
- 按有无真值(GT)分为:UBS(无监督), SBS(有监督), SSBS(半监督);
- 按利用的特征: spatial(空间信息),谱信息(spectral),混合
- 按与下游应用模型的关系:包装器方法、过滤器方法、直接距离方法、信息理论;
- 包装器方法通常需要用到下游应用模型任务(如分类模型)的结果作为子带选择的评价标准;
- 过滤器方法通常采用单变量统计(如平方检测、Fisher评分、相关系数等)作为自带选择的评价标准,而不需要下游应用的结果来交叉验证。
- 按选择策略:搜索策略、排序、聚类、混合。
BS的空间特征/光谱特征/混合特征
GT 数据提供了正在研究的特定 HSI 中感兴趣的光谱响应样本;但是,特定于类的光谱响应并不能穷尽可用信息。在 GT 中存在未标记但仍包含有用信息的像素和区域。已标记的样本(对象)与其未标记的相邻像素具有(空间)关系。此外,标记的样本包含特定于类的空间(而不是光谱)关系,使其具有唯一性。因此,根据特征的结合,BS 技术可以是光谱、空间或混合的,即同时使用光谱和空间信息(图 2)。
优化目标形式化
选择算法的优化目标有两种策略:(1)选择信息量最大的子带,(2)减少子带的数量。
直接或基于相关的距离度量
对于任何以数据分离为目标的模型,都需要整合测量工具。这些通常包括某种距离测量。根据要求,距离测量可以有不同的表述。选择合适的距离测量是 BS 中的关键步骤。
- 直接距离
由于 HSI 包含丰富的光谱信息,因此各种研究人员提出了各种光谱距离测量方法。直接和基于相关的距离测量通常与光谱信息相关联。流行的距离测量包括Bhattacharya距离(BD)、Jeffries-Matusita(JM)距离、光谱角度映射器(SAM)及其变体[145]、欧几里得距离(ED)、Karhunen-Loève(KL)距离、光谱相关角(SCA)、马氏距离(MD)、推土机距离(EMD)、n维实光谱角(NSSA)和双(光谱-空间)角度映射器。BD距离(Bhattacharya距离) [56], [64], [121], [146]–[148] 和 JM [11], [49], [102], [144], [147], [149] 是类可分离性和 FS 的最常用度量。 - 基于相关的距离
某些情况下,特别是对无监督方法而言,直接距离可能发生错误。此时,可以采用子带之间的相关性来度量,以去除冗余。
the relationship between random variables、联合相关系数(the joint correlation coefficient)、 adjacency correlation coefficient 等都可以。
信息理论和基于特征的距离度量
-
基于信息理论的度量
与直接的距离变量不同,信息论度量通常是基于统计和所需目标的数学理论的集合。
最流行的基于信息理论的距离度量算法是spectral information divergence (SID)。
最常见的基于信息理论的距离度量算法是香农熵。虽然熵找到了信息带,但如果采用选择阈值,则冗余仍然存在。因此,BS中的目标通常以减少冗余频带为目标,同时使用具有全频带信息的特征距离选择那些在类别之间具有较高判别余地的频带。 -
基于特征的度量
除了信息理论,基于空间/谱特征抽取的度量也被用于子带选择。例如,统计学方法和小波分析常用于特征集的提取。
分组和排序策略
通常,聚类/排序和混合方法可以对数据进行分组,并按顺序放置频带,但它们不会直接产生最终的频带子集。要实现后结果,需要一个称为选择的附加步骤。
- 聚类
距离和相关性被用于聚类。此外,聚类数的估计是个难题。
Estimating the correct number of clusters, however, may be a challenging task. To solve this issue, a clustering approach based on the Ng–Jordan–Weiss (NJW) algorithm is evaluated prior to estimating the number of clusters, with the help of the visual assessment of cluster tendency - 排序
- 聚类与排序的结合
搜索策略与选择策略
使用间接优化方法,通过优化、阈值化或基于搜索的选择来减少所得到的聚类/排序频带。搜索方法通常与目标相关联,根据目标选择或丢弃波段。
“The sequential forward search (SFS) approach is mostly adopted for BS“
Some popular search strategies and their references are listed in the following:
◗ SFS [49], [56], [76], [83], [118]–[120], [126], [136], [144], [152], [164], [212], [214]
◗ sequential fast forward search [35], [49], [64]
◗ steepest ascent [49]
◗ fast constrained search [49]
◗ branch and bound search [128], [196]
◗ exhaustive search [56], [68], [100], [117], [127]
◗ random search [97], [98], [129], [183], [217], [218]
◗ sequential backward search [111], [164]
◗ band add-on [58]
《Hyperspectral Band Selection: A Review》
THE NECESSITY OF HYPERSPECTRAL BAND SELECTION
REVIEW OF BAND SELECTION METHODS
1) ranking-based methods
2) searching-based methods
3) clustering-based methods
4) sparsity-based methods
5) embedding learning-based methods
6) hybrid scheme-based methods
EXPERIMENTAL RESULTS
-
在两个数据集上实验:Indian Pines and the University of Pavia, Italy。
-
All methods are implemented in MATLAB 2014a and run on a Windows 7 computer with an Intel i5-4570 Quad Core processor and 8 GB of random-access memory
SUMMARY AND DISCUSSION
- DEVELOPING SEMISUPERVISED METHODS
- DEVELOPING ACTIVE LEARNING-BASED AND DEEP-LEARNING-BASED METHODS
- ESTIMATING THE NUMBER OF BANDS TO BE SELECTED
- EXPLAINING THE BAND SELECTION
- EVALUATING BAND SELECTION PERFORMANCE