迈向零样本相机陷阱图像分类
立即解锁
发布时间: 2025-09-02 00:56:19 阅读量: 21 订阅数: 39 AIGC 


计算机视觉前沿研究
### 迈向零样本相机陷阱图像分类
相机陷阱在生态研究中具有重要价值,可用于估计野生动物种群数量、物种分布及其相互作用。然而,目前相机陷阱图像的自动分类仍面临诸多挑战,如模型在新地点的性能不佳、对新物种的适应性不足等。本文将探讨如何利用现有基础模型解决这些问题,实现更高效、准确的相机陷阱图像分类。
#### 1. 相关工作
过去,相机陷阱图像分类常采用手动方式,效率低下。随着机器学习和计算机视觉的发展,出现了多种自动分类方法。早期研究基于局部特征或早期神经网络分类器,后来CNN的发展使研究者开始微调标准化架构进行图像分类,如ResNet和VGG。近期工作采用目标检测后分类的两步过程,可减少信息损失和过拟合问题。但大多数现有方法存在一些缺点,如不使用目标检测会导致对背景过拟合,预训练模型在不同气候或大陆的适用性有限,以及现有数据集缺乏标准化。
#### 2. 数据集
为了验证不同方法的性能,本文选择了三个来自不同地理位置和物种的数据集:
| 数据集 | 来源 | 图像数量 | 类别数量 | 特点 |
| --- | --- | --- | --- | --- |
| Caltech Camera Traps - 20 (CCT20) | 美国西南部 | 约58,000 | 16 | 数据未平衡和过滤,反映自然分布,验证集分为cis和trans子集 |
| Wellington Camera Traps (WCT) | 新西兰 | 约270,000 | 17 | 需自行划分训练、验证和测试集 |
| Central Europe Fauna - 22 (CEF22) | 中欧 | 约120,000 | 32 | 私有数据集,已过滤空图像,专注于可识别物种 |
#### 3. 基线性能
由于缺乏相机陷阱分类的标准化基准,本文对基于CNN和Transformer的图像分类架构进行了基线实验。评估指标包括Top1和Top3准确率以及宏平均F1分数,主要在CCT20验证子集上进行评估,并在CEF22和WCT数据集上验证结果的可迁移性。
实验设置使用timm Python库中的预训练模型,采用SGD优化器和动量为0.9的余弦调度器进行训练,训练过程中使用随机裁剪和增强。结果表明,Transformer和CNN表现相当,但Transformer在新地点的性能更好。所有模型在未见过的trans位置表现不佳,CNN在trans和cis位置的得分差异更大,表明其对位置的过拟合更严重。后续实验将使用表现最好的三种架构:BEiT、BEiTV2和EfficientViT。
| 架构 | 预训练检查点 | 输入大小 | Cis位置Top1 | Trans位置Top1 | 总体Top1 |
| --- | --- | --- | --- | --- | --- |
| ConvNeXt - Base | IN22k | 224² | 84.9 | 36.2 | 65.7 |
| ResNeXt - 50 | IN1k | 224² | 86.8 | 35.8 | 66.7 |
| EfficientViT - B3 | IN1k | 224² | 78.9 | 40.9 | 63.9 |
| ViT - Base/p16 | IN1k | 224² | 84.6 | 49.4 | 70.7 |
| SwinV2 - Base/w16 | IN1k | 256² | 85.4 | 49.1 | 71.1 |
| Swin - Base/p4 - w7 | IN22k | 224² | 83.6 | 52.0 | 71.1 |
| BEiT - Base/p16 | IN22k | 224² | 84.4 | 54.4 | 72.6 |
| BEiTV2 - Base/p16 | IN22k | 224² | 85.9 | 53.0 | 72.9 |
| EfficientViT - L3 | IN1k | 224² | 83.5 | 60.4 | 74.4 |
#### 4. 零样本检测和分割
本部分评估了MegaDetector (MD)和Segment Anything Model (SAM)在处理相机陷阱图像中的潜力。具体步骤如下:
1. **图像数据处理**:运行MD获取所有图像的目标检测结果,将检测结果从图像中裁剪出来,保持图像宽高比一致。使用SAM去除背景像素并将目标移至中心。
2. **分类模型**:由于MD和SAM不提供类别信息,使用上一步中表现最好的三种架构作为分类器。分类器的输入分为四种类型:全尺寸图像、裁剪后的检测结果、裁剪并分割后的目标以及全尺寸和裁剪图像的组合。
3. **构建推理分类器**:训练模型后,创建包含两个分类器的预测器。对图像应用MD,若检测到目标,则使用训练用于识别裁剪或分割图像中目标的分类器;若未检测到目标,则使用全尺寸图像分类器。同时,还进行了使用单个分类器处理裁剪和全尺寸图像的实验。
##### 4.1 性能评估
通过比较三种不同输入类型的分类器性能,发现裁剪检测结果可平均提高CCT20、CEF22和WCT数据集的Top1准确率分别为10.3%、5.2%和10%。使用分割后的动物图像,性能在CCT20、CEF22和WCT上分别平均下降5.1%、2.8%和0.8%。通过CCT20的cis和trans子集测试发现,减少训练中可用的背景像素可降低位置过拟合,同时在裁剪目标上训练模型可提高整体分类性能。
| 架构 | MD | SAM | CCT | CEF | WCT | Cis | Trans |
| --- | --- | --- | --- | --- | --- | --- | --- |
| BEiT - Base/p16 | - | - | 72.6 | 85.3 | 86.5 | 84.4 | 54.4 |
| BEiT - Base/p16 | ✓ | - | 83.9 | 91.1 | 96.0 | 89.6 | 75.2 |
| BEiT - Base/p16 | ✓ | ✓ | 80.8 | 88.8 | 95.0 | 87.3 | 70.8 |
| BEiTV2 - Base/p16 | - | - | 72.9 | 87.5 | 86.0 | 85.9 | 53.0 |
| BEiTV2 - Base/p16 | ✓ | - | 84.2 | 92.2 | 96.6 | 90.1 | 75.0 |
| BEiTV2 - Base/p16 | ✓ | ✓ |
0
0
复制全文
相关推荐








