一、特征提取的方法去除训练数据中高度冗余的图片
训练数据不是越多越好,高质量的训练数据是,数据样本尽可能大、数据多样化,数据样本质量较高,但是在实际中,训练样本的量很多,但是多样性不够,这样的训练数据集会导致训练时间很长,网络模型偏向数据量多的种类,增加少样本,或者不常见的样本时,有用的信息被淹没在大量冗余信息中。
训练分类器之前,将训练集中相似度很高的图片去除,虽然数据数量上减少了,但是有用信息没有减少,并且能够缓解类别之间的不平衡。
使用resnet系列在Imagenet上的预训练模型做特征提取器,然后在特征空间计算欧式距离。
下面一组图片的相似性为6.754
二、通过分析长宽比的分布曲线去除异常尺寸
同类别的样本进行长宽比分布的分析,一般同类别的长宽比是高斯分布,可以计算该高斯的均值mmm和方差σ\sigmaσ,只保留下面尺寸范围的样本:
[m−3∗σ,m+3∗σ][m-3*\sigma, m+3*\sigma][m−3∗σ,m+3∗σ]
上图是某一个类别的比例分布,实心红点是−3σ-3\sigma−3σ和3σ3\sigma3σ的位置,我们只保留在这个区间内的样本。
正常样本 | 尺寸比例超出范围的样本 |
---|---|
![]() | ![]() |
三、可视化cam,查看网络的关注信息
CAM全称Class Activation Mapping,既类别激活映射图,也被称为类别热力图、显著性图等。是一张和原始图片等同大小图,该图片上每个位置的像素取值范围从0到1,一般用0到255的灰度图表示。可以理解为对预测输出的贡献分布,分数越高的地方表示原始图片对应区域对网络的响应越高、贡献越大。
CAM有助于理解和分析神经网络的工作原理及决策过程,进而去更好地选择或设计网络,还可以利用可视化的信息引导网络更好的学习,例如可以利用CAM信息通过"擦除"或"“裁剪”"的方式对数据进行增强。
原始图片 | cam图片 |
---|---|
![]() | ![]() |
四、可视化t-sne,关注网络的分类走向
t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,对可视化的效果衡量,无非是两方面:相似的数据是不是离得近,不相似的数据是不是离得远。
Resnet101 在 ImageNet上的预训练模型的分类结果:
Resnet101 在训练数据上6个epoch的分类结果:
Resnet101 在训练数据上14个epoch的分类结果: