深度学习视觉应用学习报告

一、常用数据集概览

1. MNIST

  • 简介:经典手写数字数据集,包含0-9共10类,60,000张训练图像和10,000张测试图像。

  • 特点:28×28像素灰度图,文件分为训练图像、训练标签、测试图像、测试标签。

  • 用途:入门级图像分类任务基准测试。

2. Fashion-MNIST

  • 简介:替代MNIST的时尚物品数据集,由Zalando提供,包含10类商品(如T恤、鞋子等)。

  • 特点:与MNIST格式一致(28×28灰度图,60k/10k划分),适合测试算法无需修改代码。

3. CIFAR-10

  • 简介:10类彩色图像数据集(飞机、汽车、鸟等),每类6,000张,50,000训练+10,000测试。

  • 特点:32×32像素,分5个训练批次和1个测试批次。

4. PASCAL VOC

  • 简介:目标检测与分割经典数据集,2012版最常用,含20类(如人、车、动物等)。

  • 文件结构

    • Annotations:XML标注文件(含物体位置、类别)。

    • JPEGImages:原始图像。

    • SegmentationClass:语义分割标签。

5. MS COCO

  • 简介:微软推出的复杂场景理解数据集,涵盖80类(如人、交通工具、家具等)。

  • 规模:33万张图像(20万标注),超过150万个实例。

  • 任务:支持目标检测、分割、语义标注等多任务。

6. ImageNet与ILSVRC

  • 简介:大规模图像分类数据集,含1,400万张图像、21,841类。

  • 竞赛背景:ILSVRC(ImageNet大规模视觉识别挑战赛)推动深度学习发展。


二、任务评价指标

1. 精确率(Precision)与召回率(Recall)

  • 混淆矩阵

    预测为正类预测为负类
    实际为正类TPFN
    实际为负类FPTN
  • 公式

    • 精确率:P=\frac{TP}{TP+FP}(“挑得准”)

    • 召回率:R=\frac{TP}{TP+FN}(“找得全”)

  • 示例

    • 飞机分类任务

      • TP:正确识别飞机;FP:大雁误判为飞机;

      • FN:飞机未被识别;TN:大雁正确排除。

2. 平均精度(AP)与mAP

  • AP计算

    • 按置信度排序样本,计算不同召回率下的精确率,绘制P-R曲线,积分求面积。

    • 公式:A P=\sum_{k=1}^N P(k) \Delta r(k)

  • mAP:多类别任务中,取所有类别AP的平均值。


三、目标检测与YOLO

1. 核心思想

  • YOLO(You Only Look Once):单阶段检测框架,将图像划分为网格,每个网格预测边界框和类别概率,实现端到端实时检测。

  • 优势:速度快,适合实时应用(如视频监控)。

2. 损失函数设计

  • 定位损失:边界框坐标误差(如均方误差)。

  • 置信度损失:预测框包含物体的置信度(交叉熵)。

  • 分类损失:物体类别预测误差(Softmax损失)。


四、全卷积网络与语义分割

1. FCN(全卷积网络)

  • 核心:将传统CNN的全连接层替换为卷积层,实现像素级分类。

  • 应用:语义分割(如区分图像中的“人”“车”“道路”)。

2. DeepLab v3

  • 改进

    • 空洞卷积:扩大感受野,保留细节。

    • ASPP模块:多尺度特征融合,提升分割精度。


五、总结与思考

  • 数据集选择:从简单(MNIST)到复杂(COCO),需根据任务需求匹配。

  • 评价指标:精确率与召回率的权衡需结合实际场景(如医疗诊断需高召回,垃圾邮件过滤需高精确)。

  • 技术演进:YOLO的实时性与FCN的精细化分割,体现了深度学习在效率与精度上的平衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值