PaddleClas图像识别任务数据集全解析
前言
在计算机视觉领域,图像识别是一项基础且重要的任务。PaddleClas作为领先的图像分类和识别工具库,对各类识别任务的数据集有着规范化的处理流程。本文将全面解析PaddleClas中图像识别任务所使用的数据集格式,并详细介绍常见的公开数据集资源。
数据集格式规范
PaddleClas中的图像识别任务(特别是向量检索任务)与普通分类任务的数据集组织形式有所不同,主要分为三个关键部分:
1. 训练数据集
用于模型训练,使模型学习图像特征。文件格式为train_list.txt
,每行包含三个字段:
图像路径 类别标签 唯一ID
例如:
train/99/Ovenbird_0136_92859.jpg 99 2
train/99/Ovenbird_0128_93366.jpg 99 6
2. 底库数据集(Gallery)
用于向量检索任务中的底库数据。当底库与训练集相同时,类别体系应与查询集一致。
3. 查询数据集(Query)
用于测试模型性能,通过计算查询图像特征与底库特征的相似度来评估模型表现。
重要说明:
- 当底库与查询集相同时,每张图像需要唯一ID以排除自检索情况
- 当两者不同时,仅需图像路径和标签两列数据
常用公开数据集详解
通用识别数据集
1. SOP数据集
- 特点:电商产品数据集,包含22,634种商品的120,053张图片
- 规模:训练集11,318类59,551图,验证集11,316类60,502图
- 适用场景:通用商品识别、度量学习研究
2. Cars196数据集
- 特点:196类汽车图像,按车型年份精细分类
- 规模:16,185张图像,训练/查询集约各半
- 适用场景:车辆型号识别
3. CUB_200_2011数据集
- 特点:鸟类细粒度识别基准数据集,包含200种鸟类
- 规模:11,788张图像,训练集5,994图,查询集5,794图
- 附加信息:提供鸟类边界框、关键部位和属性标注
4. In-shop Clothes数据集
- 特点:服装展示数据集,包含同一商品的多角度图像
- 规模:7,982个商品,52,712张图像
- 标注信息:463种属性、边界框、关键点等
垂直领域数据集
动漫人物识别
- iCartoonFace:全球最大卡通人物数据集,5,013个角色389,678张图像
- Manga109:漫画人物数据集,21,142张图像(注意商用限制)
- IIT-CFW:包含8,928卡通肖像和1,000真实人脸,支持跨模态研究
商品识别
- AliProduct:最大开源商品数据集,5万类300万图像(SKU级别)
- Product-10k:京东商品数据集,1万SKU约19万图像,专业标注
- DeepFashion-Inshop:同上述In-shop Clothes数据集
Logo识别
- Logo-2K+:专用于Logo识别,2,341类167,140张图像
- Tsinghua-Tencent 100K:交通标志数据集,10万街景图像,222类标志
车辆识别
- CompCars:13.6万整车和2.7万局部图像,含丰富属性标注
- BoxCars:监控视角车辆数据集,21,250辆车63,750张图像
- PKU-VD:两大车辆数据集(VD1和VD2),总计超160万图像
数据集选择建议
- 通用识别任务:优先考虑SOP、CUB_200_2011等基准数据集
- 垂直领域应用:
- 电商场景:AliProduct或Product-10k
- 动漫产业:iCartoonFace
- 智慧交通:Tsinghua-Tencent 100K或PKU-VD
- 研究性质工作:建议选择提供丰富标注信息的数据集如CUB_200_2011
数据处理技巧
- 数据均衡:对于类别不均衡的数据集(AliProduct),可采用过采样或损失加权
- 特征增强:监控视角数据(BoxCars)建议增加透视变换等增强
- 评估协议:严格区分底库和查询集,确保评估结果可靠性
通过合理选择数据集并遵循PaddleClas的数据规范,开发者可以快速构建高效的图像识别系统。各类数据集的特点和适用场景不同,建议根据实际需求进行选择。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考