迈向零样本相机陷阱图像分类

立即解锁

发布时间: 2025-09-02 00:56:19 阅读量: 21 订阅数: 39

计算机视觉前沿研究

### 迈向零样本相机陷阱图像分类相机陷阱在生态研究中具有重要价值，可用于估计野生动物种群数量、物种分布及其相互作用。然而，目前相机陷阱图像的自动分类仍面临诸多挑战，如模型在新地点的性能不佳、对新物种的适应性不足等。本文将探讨如何利用现有基础模型解决这些问题，实现更高效、准确的相机陷阱图像分类。 #### 1. 相关工作过去，相机陷阱图像分类常采用手动方式，效率低下。随着机器学习和计算机视觉的发展，出现了多种自动分类方法。早期研究基于局部特征或早期神经网络分类器，后来CNN的发展使研究者开始微调标准化架构进行图像分类，如ResNet和VGG。近期工作采用目标检测后分类的两步过程，可减少信息损失和过拟合问题。但大多数现有方法存在一些缺点，如不使用目标检测会导致对背景过拟合，预训练模型在不同气候或大陆的适用性有限，以及现有数据集缺乏标准化。 #### 2. 数据集为了验证不同方法的性能，本文选择了三个来自不同地理位置和物种的数据集： | 数据集 | 来源 | 图像数量 | 类别数量 | 特点 | | --- | --- | --- | --- | --- | | Caltech Camera Traps - 20 (CCT20) | 美国西南部 | 约58,000 | 16 | 数据未平衡和过滤，反映自然分布，验证集分为cis和trans子集 | | Wellington Camera Traps (WCT) | 新西兰 | 约270,000 | 17 | 需自行划分训练、验证和测试集 | | Central Europe Fauna - 22 (CEF22) | 中欧 | 约120,000 | 32 | 私有数据集，已过滤空图像，专注于可识别物种 | #### 3. 基线性能由于缺乏相机陷阱分类的标准化基准，本文对基于CNN和Transformer的图像分类架构进行了基线实验。评估指标包括Top1和Top3准确率以及宏平均F1分数，主要在CCT20验证子集上进行评估，并在CEF22和WCT数据集上验证结果的可迁移性。实验设置使用timm Python库中的预训练模型，采用SGD优化器和动量为0.9的余弦调度器进行训练，训练过程中使用随机裁剪和增强。结果表明，Transformer和CNN表现相当，但Transformer在新地点的性能更好。所有模型在未见过的trans位置表现不佳，CNN在trans和cis位置的得分差异更大，表明其对位置的过拟合更严重。后续实验将使用表现最好的三种架构：BEiT、BEiTV2和EfficientViT。 | 架构 | 预训练检查点 | 输入大小 | Cis位置Top1 | Trans位置Top1 | 总体Top1 | | --- | --- | --- | --- | --- | --- | | ConvNeXt - Base | IN22k | 224² | 84.9 | 36.2 | 65.7 | | ResNeXt - 50 | IN1k | 224² | 86.8 | 35.8 | 66.7 | | EfficientViT - B3 | IN1k | 224² | 78.9 | 40.9 | 63.9 | | ViT - Base/p16 | IN1k | 224² | 84.6 | 49.4 | 70.7 | | SwinV2 - Base/w16 | IN1k | 256² | 85.4 | 49.1 | 71.1 | | Swin - Base/p4 - w7 | IN22k | 224² | 83.6 | 52.0 | 71.1 | | BEiT - Base/p16 | IN22k | 224² | 84.4 | 54.4 | 72.6 | | BEiTV2 - Base/p16 | IN22k | 224² | 85.9 | 53.0 | 72.9 | | EfficientViT - L3 | IN1k | 224² | 83.5 | 60.4 | 74.4 | #### 4. 零样本检测和分割本部分评估了MegaDetector (MD)和Segment Anything Model (SAM)在处理相机陷阱图像中的潜力。具体步骤如下： 1. **图像数据处理**：运行MD获取所有图像的目标检测结果，将检测结果从图像中裁剪出来，保持图像宽高比一致。使用SAM去除背景像素并将目标移至中心。 2. **分类模型**：由于MD和SAM不提供类别信息，使用上一步中表现最好的三种架构作为分类器。分类器的输入分为四种类型：全尺寸图像、裁剪后的检测结果、裁剪并分割后的目标以及全尺寸和裁剪图像的组合。 3. **构建推理分类器**：训练模型后，创建包含两个分类器的预测器。对图像应用MD，若检测到目标，则使用训练用于识别裁剪或分割图像中目标的分类器；若未检测到目标，则使用全尺寸图像分类器。同时，还进行了使用单个分类器处理裁剪和全尺寸图像的实验。 ##### 4.1 性能评估通过比较三种不同输入类型的分类器性能，发现裁剪检测结果可平均提高CCT20、CEF22和WCT数据集的Top1准确率分别为10.3%、5.2%和10%。使用分割后的动物图像，性能在CCT20、CEF22和WCT上分别平均下降5.1%、2.8%和0.8%。通过CCT20的cis和trans子集测试发现，减少训练中可用的背景像素可降低位置过拟合，同时在裁剪目标上训练模型可提高整体分类性能。 | 架构 | MD | SAM | CCT | CEF | WCT | Cis | Trans | | --- | --- | --- | --- | --- | --- | --- | --- | | BEiT - Base/p16 | - | - | 72.6 | 85.3 | 86.5 | 84.4 | 54.4 | | BEiT - Base/p16 | ✓ | - | 83.9 | 91.1 | 96.0 | 89.6 | 75.2 | | BEiT - Base/p16 | ✓ | ✓ | 80.8 | 88.8 | 95.0 | 87.3 | 70.8 | | BEiTV2 - Base/p16 | - | - | 72.9 | 87.5 | 86.0 | 85.9 | 53.0 | | BEiTV2 - Base/p16 | ✓ | - | 84.2 | 92.2 | 96.6 | 90.1 | 75.0 | | BEiTV2 - Base/p16 | ✓ | ✓ |

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

迈向零样本相机陷阱图像分类

相关推荐

专栏目录

迈向零样本相机陷阱图像分类

相关推荐

草莓果实分类图像数据集

迈向实例级图像到图像转换

BicycleGAN：迈向多峰图像到图像转换

迈向稳健的图像隐写术

迈向实时交通标志检测与分类

迈向无密码本：移动图像搜索的可扩展级联哈希

PENet_ICRA2021：ICRA 2021“迈向精确高效的图像引导深度完成”

迈向「零」废物活动策划报告书.doc

迈向「零」废物活动策划报告书.docx

双线性嵌入标签传播：迈向图像标签的可扩展预测

appstream-1.4.93-javadoc.jar

专栏目录

最新推荐

模糊综合评价与多目标优化协同建模方法：复杂问题决策新思路，实战必看

LBM网格划分策略揭秘：如何在精度与资源之间找到最佳平衡点？

模块化开发实战：AvalonDock与Prism框架整合构建桌面应用终极方案

从alg_expression.zip出发解码激光雷达反演算法：一线工程师实战笔记

动态目标成像中MUSIC算法性能评估与优化：实测数据对比（含Matlab仿真）

【SMA模型在LS-DYNA中的实现】：关键技术难点与解决方案

【MATLAB非线性效应仿真突破】：克尔效应与色散影响全图谱

LNR互操作异常定位方法论：从信令跟踪到根因分析完整路径

PHP与JavaScript应用的托管、报告与分发指南

Kubernetes文件夹监控新玩法：Pod级监听的实现方案与性能优化策略