一、常用数据集概览
1. MNIST
-
简介:经典手写数字数据集,包含0-9共10类,60,000张训练图像和10,000张测试图像。
-
特点:28×28像素灰度图,文件分为训练图像、训练标签、测试图像、测试标签。
-
用途:入门级图像分类任务基准测试。
2. Fashion-MNIST
-
简介:替代MNIST的时尚物品数据集,由Zalando提供,包含10类商品(如T恤、鞋子等)。
-
特点:与MNIST格式一致(28×28灰度图,60k/10k划分),适合测试算法无需修改代码。
3. CIFAR-10
-
简介:10类彩色图像数据集(飞机、汽车、鸟等),每类6,000张,50,000训练+10,000测试。
-
特点:32×32像素,分5个训练批次和1个测试批次。
4. PASCAL VOC
-
简介:目标检测与分割经典数据集,2012版最常用,含20类(如人、车、动物等)。
-
文件结构:
-
Annotations
:XML标注文件(含物体位置、类别)。 -
JPEGImages
:原始图像。 -
SegmentationClass
:语义分割标签。
-
5. MS COCO
-
简介:微软推出的复杂场景理解数据集,涵盖80类(如人、交通工具、家具等)。
-
规模:33万张图像(20万标注),超过150万个实例。
-
任务:支持目标检测、分割、语义标注等多任务。
6. ImageNet与ILSVRC
-
简介:大规模图像分类数据集,含1,400万张图像、21,841类。
-
竞赛背景:ILSVRC(ImageNet大规模视觉识别挑战赛)推动深度学习发展。
二、任务评价指标
1. 精确率(Precision)与召回率(Recall)
-
混淆矩阵:
预测为正类 预测为负类 实际为正类 TP FN 实际为负类 FP TN -
公式:
-
精确率:
(“挑得准”)
-
召回率:
(“找得全”)
-
-
示例:
-
飞机分类任务:
-
TP:正确识别飞机;FP:大雁误判为飞机;
-
FN:飞机未被识别;TN:大雁正确排除。
-
-
2. 平均精度(AP)与mAP
-
AP计算:
-
按置信度排序样本,计算不同召回率下的精确率,绘制P-R曲线,积分求面积。
-
公式:
-
-
mAP:多类别任务中,取所有类别AP的平均值。
三、目标检测与YOLO
1. 核心思想
-
YOLO(You Only Look Once):单阶段检测框架,将图像划分为网格,每个网格预测边界框和类别概率,实现端到端实时检测。
-
优势:速度快,适合实时应用(如视频监控)。
2. 损失函数设计
-
定位损失:边界框坐标误差(如均方误差)。
-
置信度损失:预测框包含物体的置信度(交叉熵)。
-
分类损失:物体类别预测误差(Softmax损失)。
四、全卷积网络与语义分割
1. FCN(全卷积网络)
-
核心:将传统CNN的全连接层替换为卷积层,实现像素级分类。
-
应用:语义分割(如区分图像中的“人”“车”“道路”)。
2. DeepLab v3
-
改进:
-
空洞卷积:扩大感受野,保留细节。
-
ASPP模块:多尺度特征融合,提升分割精度。
-
五、总结与思考
-
数据集选择:从简单(MNIST)到复杂(COCO),需根据任务需求匹配。
-
评价指标:精确率与召回率的权衡需结合实际场景(如医疗诊断需高召回,垃圾邮件过滤需高精确)。
-
技术演进:YOLO的实时性与FCN的精细化分割,体现了深度学习在效率与精度上的平衡。