迈向零样本相机陷阱图像分类

立即解锁
发布时间: 2025-09-02 00:56:19 阅读量: 21 订阅数: 39 AIGC
PDF

计算机视觉前沿研究

### 迈向零样本相机陷阱图像分类 相机陷阱在生态研究中具有重要价值,可用于估计野生动物种群数量、物种分布及其相互作用。然而,目前相机陷阱图像的自动分类仍面临诸多挑战,如模型在新地点的性能不佳、对新物种的适应性不足等。本文将探讨如何利用现有基础模型解决这些问题,实现更高效、准确的相机陷阱图像分类。 #### 1. 相关工作 过去,相机陷阱图像分类常采用手动方式,效率低下。随着机器学习和计算机视觉的发展,出现了多种自动分类方法。早期研究基于局部特征或早期神经网络分类器,后来CNN的发展使研究者开始微调标准化架构进行图像分类,如ResNet和VGG。近期工作采用目标检测后分类的两步过程,可减少信息损失和过拟合问题。但大多数现有方法存在一些缺点,如不使用目标检测会导致对背景过拟合,预训练模型在不同气候或大陆的适用性有限,以及现有数据集缺乏标准化。 #### 2. 数据集 为了验证不同方法的性能,本文选择了三个来自不同地理位置和物种的数据集: | 数据集 | 来源 | 图像数量 | 类别数量 | 特点 | | --- | --- | --- | --- | --- | | Caltech Camera Traps - 20 (CCT20) | 美国西南部 | 约58,000 | 16 | 数据未平衡和过滤,反映自然分布,验证集分为cis和trans子集 | | Wellington Camera Traps (WCT) | 新西兰 | 约270,000 | 17 | 需自行划分训练、验证和测试集 | | Central Europe Fauna - 22 (CEF22) | 中欧 | 约120,000 | 32 | 私有数据集,已过滤空图像,专注于可识别物种 | #### 3. 基线性能 由于缺乏相机陷阱分类的标准化基准,本文对基于CNN和Transformer的图像分类架构进行了基线实验。评估指标包括Top1和Top3准确率以及宏平均F1分数,主要在CCT20验证子集上进行评估,并在CEF22和WCT数据集上验证结果的可迁移性。 实验设置使用timm Python库中的预训练模型,采用SGD优化器和动量为0.9的余弦调度器进行训练,训练过程中使用随机裁剪和增强。结果表明,Transformer和CNN表现相当,但Transformer在新地点的性能更好。所有模型在未见过的trans位置表现不佳,CNN在trans和cis位置的得分差异更大,表明其对位置的过拟合更严重。后续实验将使用表现最好的三种架构:BEiT、BEiTV2和EfficientViT。 | 架构 | 预训练检查点 | 输入大小 | Cis位置Top1 | Trans位置Top1 | 总体Top1 | | --- | --- | --- | --- | --- | --- | | ConvNeXt - Base | IN22k | 224² | 84.9 | 36.2 | 65.7 | | ResNeXt - 50 | IN1k | 224² | 86.8 | 35.8 | 66.7 | | EfficientViT - B3 | IN1k | 224² | 78.9 | 40.9 | 63.9 | | ViT - Base/p16 | IN1k | 224² | 84.6 | 49.4 | 70.7 | | SwinV2 - Base/w16 | IN1k | 256² | 85.4 | 49.1 | 71.1 | | Swin - Base/p4 - w7 | IN22k | 224² | 83.6 | 52.0 | 71.1 | | BEiT - Base/p16 | IN22k | 224² | 84.4 | 54.4 | 72.6 | | BEiTV2 - Base/p16 | IN22k | 224² | 85.9 | 53.0 | 72.9 | | EfficientViT - L3 | IN1k | 224² | 83.5 | 60.4 | 74.4 | #### 4. 零样本检测和分割 本部分评估了MegaDetector (MD)和Segment Anything Model (SAM)在处理相机陷阱图像中的潜力。具体步骤如下: 1. **图像数据处理**:运行MD获取所有图像的目标检测结果,将检测结果从图像中裁剪出来,保持图像宽高比一致。使用SAM去除背景像素并将目标移至中心。 2. **分类模型**:由于MD和SAM不提供类别信息,使用上一步中表现最好的三种架构作为分类器。分类器的输入分为四种类型:全尺寸图像、裁剪后的检测结果、裁剪并分割后的目标以及全尺寸和裁剪图像的组合。 3. **构建推理分类器**:训练模型后,创建包含两个分类器的预测器。对图像应用MD,若检测到目标,则使用训练用于识别裁剪或分割图像中目标的分类器;若未检测到目标,则使用全尺寸图像分类器。同时,还进行了使用单个分类器处理裁剪和全尺寸图像的实验。 ##### 4.1 性能评估 通过比较三种不同输入类型的分类器性能,发现裁剪检测结果可平均提高CCT20、CEF22和WCT数据集的Top1准确率分别为10.3%、5.2%和10%。使用分割后的动物图像,性能在CCT20、CEF22和WCT上分别平均下降5.1%、2.8%和0.8%。通过CCT20的cis和trans子集测试发现,减少训练中可用的背景像素可降低位置过拟合,同时在裁剪目标上训练模型可提高整体分类性能。 | 架构 | MD | SAM | CCT | CEF | WCT | Cis | Trans | | --- | --- | --- | --- | --- | --- | --- | --- | | BEiT - Base/p16 | - | - | 72.6 | 85.3 | 86.5 | 84.4 | 54.4 | | BEiT - Base/p16 | ✓ | - | 83.9 | 91.1 | 96.0 | 89.6 | 75.2 | | BEiT - Base/p16 | ✓ | ✓ | 80.8 | 88.8 | 95.0 | 87.3 | 70.8 | | BEiTV2 - Base/p16 | - | - | 72.9 | 87.5 | 86.0 | 85.9 | 53.0 | | BEiTV2 - Base/p16 | ✓ | - | 84.2 | 92.2 | 96.6 | 90.1 | 75.0 | | BEiTV2 - Base/p16 | ✓ | ✓ |
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

物联网_赵伟杰

物联网专家
12年毕业于人民大学计算机专业,有超过7年工作经验的物联网及硬件开发专家,曾就职于多家知名科技公司,并在其中担任重要技术职位。有丰富的物联网及硬件开发经验,擅长于嵌入式系统设计、传感器技术、无线通信以及智能硬件开发等领域。
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

模糊综合评价与多目标优化协同建模方法:复杂问题决策新思路,实战必看

![模糊综合评价与多目标优化协同建模方法:复杂问题决策新思路,实战必看](https://x0.ifengimg.com/res/2023/46902B1569CA5BA4AE0E0F8C5ED6641DBAB9BA74_size119_w1080_h363.png) # 摘要 本文系统探讨了模糊综合评价与多目标优化建模的基本理论、方法流程及其协同应用机制。首先,介绍了模糊集合理论、隶属函数构建及综合评价模型的步骤,并分析了其在实际应用中的局限性。随后,阐述了多目标优化的数学表达、经典求解算法及其评价与可视化手段。进一步地,提出了模糊综合评价与多目标优化的协同建模框架,明确了二者在建模流

LBM网格划分策略揭秘:如何在精度与资源之间找到最佳平衡点?

![10_Rev尺度_REV多孔介质_格子Boltzmann_LBM_多孔介质_源码.rar](https://public.fangzhenxiu.com/fixComment/commentContent/imgs/1687451361941_0ssj5j.jpg?imageView2/0) # 摘要 LBM(格子玻尔兹曼方法)网格划分是复杂流体模拟与工程计算中的关键技术环节,直接影响模拟精度、计算效率与资源消耗。本文系统梳理了LBM网格划分的基本概念与核心挑战,深入分析了各类网格类型及其对数值稳定性和误差控制的影响机制。研究涵盖了从固定网格到自适应网格细化(AMR)等多种划分策略的

模块化开发实战:AvalonDock与Prism框架整合构建桌面应用终极方案

![模块化开发实战:AvalonDock与Prism框架整合构建桌面应用终极方案](https://docs.devexpress.com/WindowsForms/images/docking2017-customization-dialog127346.png) # 摘要 本文围绕模块化开发与桌面应用架构设计展开,重点研究AvalonDock与Prism框架的整合机制及其在实际开发中的应用。深入分析了AvalonDock的布局系统与窗口管理机制、Prism框架的模块化结构与依赖注入原理,并探讨了两者集成时面临的关键技术挑战。文章提出了基于Prism的功能模块划分策略与接口设计方法,设

从alg_expression.zip出发解码激光雷达反演算法:一线工程师实战笔记

![从alg_expression.zip出发解码激光雷达反演算法:一线工程师实战笔记](https://www.mathcad.com/-/media/Images/blog/post/mathcad-blog/2020/isolve.png) # 摘要 本文围绕激光雷达反演算法的理论基础与工程实践展开系统研究,首先介绍反演算法的基本原理及其在大气探测中的应用背景,深入分析光学传播模型、散射机制及数学建模方法,并对常见反演技术进行对比评估。随后,结合实际代码包alg_expression.zip,解析核心算法结构、实现逻辑及可视化手段,探讨算法在真实数据中的部署、调试与性能优化策略,涵

动态目标成像中MUSIC算法性能评估与优化:实测数据对比(含Matlab仿真)

![MUSIC算法](https://rtklibexplorer.wordpress.com/wp-content/uploads/2021/11/image-1.png) # 摘要 MUSIC算法作为一种经典的高分辨率波达方向(DOA)估计方法,在动态目标成像中具有广泛应用。本文系统阐述了MUSIC算法的理论基础,包括信号模型、子空间分解与谱估计原理,并分析其在动态场景下的适应性。通过仿真与实测数据验证,评估了算法在不同快拍数、信噪比及多目标运动模型下的性能表现。研究进一步探讨了MUSIC算法的优化策略,涵盖子空间估计改进、压缩感知结合以及面向动态目标的自适应设计。最后,本文展望了深

【SMA模型在LS-DYNA中的实现】:关键技术难点与解决方案

# 摘要 本文围绕形状记忆合金(SMA)材料模型在LS-DYNA中的仿真建模展开系统研究,介绍了SMA材料的基本力学行为与本构模型的数学表达,重点分析了Tanaka模型与Liang-Rogers模型的构建原理。文章详细阐述了SMA材料模型在LS-DYNA中的实现过程,包括用户材料子程序(UMAT/VUMAT)的开发流程、编译调用机制以及仿真结果的验证方法。针对仿真过程中存在的数值稳定性、热-力耦合复杂性等关键技术难点,提出了相应的优化策略。结合典型工程应用案例,如智能结构变形控制、汽车冲击能量吸收及航空航天可变形翼面设计,验证了模型的有效性与适用性。研究成果为SMA材料在多物理场协同仿真中

【MATLAB非线性效应仿真突破】:克尔效应与色散影响全图谱

![【MATLAB非线性效应仿真突破】:克尔效应与色散影响全图谱](https://d3i71xaburhd42.cloudfront.net/223cf2489c613e15103c9351ec8b636f5413f445/40-Figure4-1.png) # 摘要 本文系统探讨了MATLAB在非线性光学仿真中的关键应用,围绕非线性光学效应的理论基础、数值建模方法及仿真实验展开深入分析。首先介绍了非线性光学的基本概念与核心效应,重点剖析了克尔效应与色散效应的物理机制及其数学描述。随后,详细构建了基于非线性薛定谔方程的数值模型,并采用分步傅里叶法在MATLAB中实现仿真求解。通过典型仿

LNR互操作异常定位方法论:从信令跟踪到根因分析完整路径

![LNR互操作异常定位方法论:从信令跟踪到根因分析完整路径](https://www.telecomhall.net/uploads/db2683/optimized/3X/d/a/da592fb7aadc7208b25968ef013723929a381eed_2_1024x504.jpeg) # 摘要 LNR互操作异常是5G网络部署与演进过程中影响服务连续性与用户体验的关键问题。本文系统梳理了LNR(LTE-NR)互操作的基本原理与信令流程,深入解析了切换、重定向及重建等关键流程中的异常行为及其触发机制。结合多维度信令跟踪与数据采集方法,本文提出了异常识别与分类的技术路径,并构建了

PHP与JavaScript应用的托管、报告与分发指南

# PHP与JavaScript应用的托管、报告与分发指南 ## 1. 引言 在当今数字化时代,Web应用的托管、报告生成以及数据分发是数据处理流程中的重要环节。本文将介绍如何利用PHP和JavaScript进行用户数据的收集与分析,同时详细阐述如何将相关应用部署到Amazon Lightsail这一轻量级云托管平台上。 ## 2. 数据收集方法 ### 2.1 主动数据收集 - **二进制数据收集**:通过`ajax.php`、`binary.html`和`create.sql`等文件实现,利用jQuery库进行交互。示例代码如下: ```php // ajax.php部分代码 try

Kubernetes文件夹监控新玩法:Pod级监听的实现方案与性能优化策略

![Kubernetes文件夹监控新玩法:Pod级监听的实现方案与性能优化策略](https://d2908q01vomqb2.cloudfront.net/ca3512f4dfa95a03169c5a670a4c91a19b3077b4/2021/08/02/elamaras_prometheus_f2_feature.png) # 摘要 随着云原生技术的快速发展,Kubernetes作为主流的容器编排平台,其监控能力特别是Pod级监听机制,成为保障系统稳定性和实现自动化运维的关键。本文系统性地介绍了Kubernetes监控体系,并深入分析了Pod级监听的技术原理与实现机制,涵盖Kub