PaddleClas图像识别任务数据集全解析

舒璇辛Bertina

于 2025-06-07 09:23:05 发布

阅读量421

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_00230/article/details/148490878

版权

PaddleClas图像识别任务数据集全解析

PaddleClas A treasure chest for visual classification and recognition powered by PaddlePaddle 项目地址: https://gitcode.com/gh_mirrors/pa/PaddleClas

前言

在计算机视觉领域，图像识别是一项基础且重要的任务。PaddleClas作为领先的图像分类和识别工具库，对各类识别任务的数据集有着规范化的处理流程。本文将全面解析PaddleClas中图像识别任务所使用的数据集格式，并详细介绍常见的公开数据集资源。

数据集格式规范

PaddleClas中的图像识别任务（特别是向量检索任务）与普通分类任务的数据集组织形式有所不同，主要分为三个关键部分：

1. 训练数据集

用于模型训练，使模型学习图像特征。文件格式为train_list.txt，每行包含三个字段：

图像路径 类别标签 唯一ID

例如：

train/99/Ovenbird_0136_92859.jpg 99 2
train/99/Ovenbird_0128_93366.jpg 99 6

2. 底库数据集(Gallery)

用于向量检索任务中的底库数据。当底库与训练集相同时，类别体系应与查询集一致。

3. 查询数据集(Query)

用于测试模型性能，通过计算查询图像特征与底库特征的相似度来评估模型表现。

重要说明：

当底库与查询集相同时，每张图像需要唯一ID以排除自检索情况
当两者不同时，仅需图像路径和标签两列数据

常用公开数据集详解

通用识别数据集

1. SOP数据集

特点：电商产品数据集，包含22,634种商品的120,053张图片
规模：训练集11,318类59,551图，验证集11,316类60,502图
适用场景：通用商品识别、度量学习研究

2. Cars196数据集

特点：196类汽车图像，按车型年份精细分类
规模：16,185张图像，训练/查询集约各半
适用场景：车辆型号识别

3. CUB_200_2011数据集

特点：鸟类细粒度识别基准数据集，包含200种鸟类
规模：11,788张图像，训练集5,994图，查询集5,794图
附加信息：提供鸟类边界框、关键部位和属性标注

4. In-shop Clothes数据集

特点：服装展示数据集，包含同一商品的多角度图像
规模：7,982个商品，52,712张图像
标注信息：463种属性、边界框、关键点等

垂直领域数据集

动漫人物识别

iCartoonFace：全球最大卡通人物数据集，5,013个角色389,678张图像
Manga109：漫画人物数据集，21,142张图像（注意商用限制）
IIT-CFW：包含8,928卡通肖像和1,000真实人脸，支持跨模态研究

商品识别

AliProduct：最大开源商品数据集，5万类300万图像（SKU级别）
Product-10k：京东商品数据集，1万SKU约19万图像，专业标注
DeepFashion-Inshop：同上述In-shop Clothes数据集

Logo识别

Logo-2K+：专用于Logo识别，2,341类167,140张图像
Tsinghua-Tencent 100K：交通标志数据集，10万街景图像，222类标志

车辆识别

CompCars：13.6万整车和2.7万局部图像，含丰富属性标注
BoxCars：监控视角车辆数据集，21,250辆车63,750张图像
PKU-VD：两大车辆数据集(VD1和VD2)，总计超160万图像

数据集选择建议

通用识别任务：优先考虑SOP、CUB_200_2011等基准数据集
垂直领域应用：
- 电商场景：AliProduct或Product-10k
- 动漫产业：iCartoonFace
- 智慧交通：Tsinghua-Tencent 100K或PKU-VD
研究性质工作：建议选择提供丰富标注信息的数据集如CUB_200_2011

数据处理技巧

数据均衡：对于类别不均衡的数据集(AliProduct)，可采用过采样或损失加权
特征增强：监控视角数据(BoxCars)建议增加透视变换等增强
评估协议：严格区分底库和查询集，确保评估结果可靠性

通过合理选择数据集并遵循PaddleClas的数据规范，开发者可以快速构建高效的图像识别系统。各类数据集的特点和适用场景不同，建议根据实际需求进行选择。

PaddleClas A treasure chest for visual classification and recognition powered by PaddlePaddle 项目地址: https://gitcode.com/gh_mirrors/pa/PaddleClas

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

舒璇辛Bertina 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。