近期进行数据集标注时发现labelme相对好用(可多任务),label-studio也好用,单任务时会先考虑。将内容整理如下:
一、深度学习常用数据集
以下常用的数据集,对于深度学习通用的分类、分割、目标检测任务的评测等具有重要意义。
[MNIST] (http://yann.lecun.com/exdb/mnist/)
[CIFAR-10 / CIFAR-100] http://www.cs.toronto.edu/~kriz/cifar.html)
[ImageNet] (http://www.image-net.org/)
[COCO] (https://cocodataset.org/#home)
[PASCAL VOC] (https://pjreddie.com/projects/pascal-voc-dataset-mirror/)
[Caltech101] (http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
[LFW] (http://vis-www.cs.umass.edu/lfw/)
[fashion-mnist] (https://www.kaggle.com/zalando-research/fashionmnist)
[DIV2K] (https://data.vision.ee.ethz.ch/cvl/DIV2K/)
COCO (Common Objects in Context) |
Pascal VOC |
Open Images |
Cityscapes |
ADE20K |
Mapillary Vistas |
ChestX-Ray14 |
MSCOCO Medical | |
规模 |
约 20 万张图像,标注 150 万个物体实例、91 类物体、80 种可见关键点(如人体关节) |
约 2 万张图像,20 类物体(如人、自行车、飞机等) |
900 万张图像,6000 万个物体实例,600 + 类别,支持多标签分类 |
5000 张精细标注图像(2048×1024 像素),2 万张粗略标注图像,50 类语义标签(如道路、行人、建筑)。 |
2 万张图像,150 类语义标签,覆盖室内外多种场景(如办公室、公园、街道) |
2.5 万张图像,9 类大类别、65 类细粒度标签(如 “人行道”“交通信号灯”),覆盖全球不同城市街景 |
11 万张胸部 X 光图像,关联 3 万 + 患者,标注 14 种胸部疾病(如肺炎、肺结节) |
/ |
特点 |
边界框(目标检测)、多边形掩码(实例分割)、关键点(姿态估计) |
标注规范(边界框、语义分割掩码),推动了 R-CNN 等经典检测算法的发展 |
工业级大规模数据集,标注精细(如物体遮挡关系、视觉关系) |
聚焦城市街景,高分辨率图像,标注包含像素级语义掩码 |
场景多样性强,标注精细,适合通用语义分割算法研究 |
多语言标注,支持跨地域场景的语义分割模型训练 |
多标签标注,图像与临床元数据结合,需注意数据脱敏 |
基于 COCO 格式的医疗图像标注数据集,涵盖 X 光、CT、MRI 等模态 |
应用场景 |
多任务视觉算法的黄金标准(如 YOLO、Mask R-CNN),广泛用于自动驾驶、安防监控等领域。 |
早期目标检测与语义分割研究的基准,适合轻量级算法验证。 |
复杂场景下的目标检测(如电商商品识别、视频监控),适合训练高精度模型 |
自动驾驶领域的环境感知(如车道线识别、障碍物分类),推动语义分割算法在复杂场景中的落地 |
智能家居、虚拟现实(VR)等需要理解复杂场景语义的领域 |
全球化自动驾驶地图构建、城市规划数据分析 |
计算机辅助诊断(CAD)系统开发,肺部疾病自动化筛查 |
跨模态医学图像分析,如肿瘤检测与分割 |
二、数据标注比较
通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。常用的数据标注工具主要有以下几种:2D 框、语义分割、多边形分割、点标注、线标注、视频标注、3D 立方体标注等。
序号 |
分类 |
说明 |
示例 |
1 |
2D 框 |
2D 框为矩形,在所有的标注工具里,2D 框是最简单的数据标注类型,成本也是最低的。 |
|
2 |
语义分割 |
语义分割是图像标注领域比较精准的标注类型,同时也是耗时比较长的标注类型,标注员需要对图片上的所有内容进行标注。 |
|
3 |
多边形分割 |
与 2D 框相比,多边形分割用于图片和视频中精确的物体检测和位置定位。 与 2D 框相比,多边形分割更精准,但也更耗时,成本更高。 |
|
4 |
点标注 |
通过多个连续的点确定巨大和微小物体的形状变化,通常用于统计模型以及姿势或面部识别模型。 |
|
5 |
线标注 |
主要用于自动驾驶车辆的道路识别,定义车辆,自行车,相反方向交 通灯,分叉路等不同道路。 |
|
6 |
视频标注 |
以帧为单位在一系列图像中定位和跟踪物体。多用于训练车辆、 行人、骑行者、道路等自动驾驶预测模型。 |
|
7 |
3D 立方体标注 |
用于从 2D 图片和视频中获得空间视觉模型,进而进而获得灭点,测量物体间的相对距离。 |
|
三、常用数据标注工具
一款好用的标注工具是提升标注效率与产出高质量标注数据的关键。目前市面上常见、通用的数据标注工具有LabelImg、 Labelme、 RectLabel、 OpenCV/CVAT、 VOTT、 Boobs、精灵标注(Colabeler)等。
(1)LabelImg 是一个图形图像标注工具。它是用 Python 编写的,并使用 Qt 作为图形界面。LabelImg 标注以 PASCAL VOC 格式(ImageNet 使用的格式)保存为 XML 文件。此外,它还支持 YOLO 格式。
安装:pip install labelimg
labelimg快捷键
快捷键 |
功能 |
Ctrl + Q |
退出软件 |
Ctrl + U |
Open Dir |
Ctrl + R |
Change Save Dir |
Ctrl + S |
保存图像 |
Ctrl + L |
线框颜色 |
Ctrl + J |
移动编辑标注框 |
Ctrl + D |
复制框 |
Ctrl + H |
隐藏所有的框 |
Ctrl + A |
显示所有的框 |
space |
标记当前图片已标记 |
Ctrl + + |
放大 |
Ctrl + = |
原始大小 |
Ctrl + F |
图像适应窗口 |
Ctrl + E |
编辑标签 |
W |
画框 |
Delete |
删除框 |
Ctrl + shift + F |
图像适应宽度 |
D |
Next Image |
A |
Prev Image |
Ctrl + shift + O |
打开的文件夹只显示.xml文件 |
(2)Labelme 由 MIT 开发,支持多边形、圆形等多种标注形式,还可用于语义分割与实例分割标注的扩展性,支持导出 JSON 格式标注文件,适配复杂视觉任务。这款软件完全开源免费,支持多人协作标注,并内置数据增强功能(如镜像、旋转),提升数据集多样性。但界面复杂度较高,需一定学习成本;仅支持基础标注格式导出。适用于学术研究、小规模图像分割与目标检测混合任务。
安装:pip install labelme
注:①安装labelme时,使用python大于等于3.9的版本,否则会出现“TypeError: 'type' object is not subscriptable”报错;
②注意去勾选“同时保存图像数据”并勾选自动保存,选好输出路径。
(3)Label Studio是一个功能强大的开源数据标注工具,可助力用户创建高质量的标注数据集,广泛应用于各类机器学习与深度学习项目。
安装:
conda create --name labelstudio python=3.9 #创建虚拟环境
conda activate labelstudio
pip install label-studio
label-studio
先注册,用注册的用户名登录即可使用
项目名称可以自定义,去图片导入界面打开图片目录进行图片导入
设置标签,选择对应的场景,这里假设要标注图片中的汽车、天空为例,添加“car”、”sky”2个标签,点击save
此时就可以双击进行标注了
标注完毕可进行导出,导出可选择json、csv等格式,此时,数据集就制作完毕了。