常用数据标注工具梳理总结

      近期进行数据集标注时发现labelme相对好用(可多任务),label-studio也好用,单任务时会先考虑。将内容整理如下:

一、深度学习常用数据集

以下常用的数据集,对于深度学习通用的分类、分割、目标检测任务的评测等具有重要意义。

[MNIST] (http://yann.lecun.com/exdb/mnist/)

[CIFAR-10 / CIFAR-100] http://www.cs.toronto.edu/~kriz/cifar.html)

[ImageNet] (http://www.image-net.org/)

[COCO] (https://cocodataset.org/#home)

[PASCAL VOC] (https://pjreddie.com/projects/pascal-voc-dataset-mirror/)

[Caltech101] (http://www.vision.caltech.edu/Image_Datasets/Caltech101/)

[LFW] (http://vis-www.cs.umass.edu/lfw/)

[fashion-mnist] (https://www.kaggle.com/zalando-research/fashionmnist)

[DIV2K] (https://data.vision.ee.ethz.ch/cvl/DIV2K/)

COCO

(Common Objects in Context)

Pascal VOC

Open Images

Cityscapes

 ADE20K

Mapillary Vistas

ChestX-Ray14

MSCOCO Medical

规模

约 20 万张图像,标注 150 万个物体实例、91 类物体、80 种可见关键点(如人体关节)

约 2 万张图像,20 类物体(如人、自行车、飞机等)

900 万张图像,6000 万个物体实例,600 + 类别,支持多标签分类

5000 张精细标注图像(2048×1024 像素),2 万张粗略标注图像,50 类语义标签(如道路、行人、建筑)。

2 万张图像,150 类语义标签,覆盖室内外多种场景(如办公室、公园、街道)

2.5 万张图像,9 类大类别、65 类细粒度标签(如 “人行道”“交通信号灯”),覆盖全球不同城市街景

11 万张胸部 X 光图像,关联 3 万 + 患者,标注 14 种胸部疾病(如肺炎、肺结节)

/

特点

边界框(目标检测)、多边形掩码(实例分割)、关键点(姿态估计)

标注规范(边界框、语义分割掩码),推动了 R-CNN 等经典检测算法的发展

工业级大规模数据集,标注精细(如物体遮挡关系、视觉关系)

聚焦城市街景,高分辨率图像,标注包含像素级语义掩码

场景多样性强,标注精细,适合通用语义分割算法研究

多语言标注,支持跨地域场景的语义分割模型训练

多标签标注,图像与临床元数据结合,需注意数据脱敏

基于 COCO 格式的医疗图像标注数据集,涵盖 X 光、CT、MRI 等模态

应用场景

多任务视觉算法的黄金标准(如 YOLO、Mask R-CNN),广泛用于自动驾驶、安防监控等领域。

早期目标检测与语义分割研究的基准,适合轻量级算法验证。

复杂场景下的目标检测(如电商商品识别、视频监控),适合训练高精度模型

自动驾驶领域的环境感知(如车道线识别、障碍物分类),推动语义分割算法在复杂场景中的落地

智能家居、虚拟现实(VR)等需要理解复杂场景语义的领域

全球化自动驾驶地图构建、城市规划数据分析

计算机辅助诊断(CAD)系统开发,肺部疾病自动化筛查

跨模态医学图像分析,如肿瘤检测与分割

二、数据标注比较

通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。常用的数据标注工具主要有以下几种:2D 框、语义分割、多边形分割、点标注、线标注、视频标注、3D 立方体标注等。

序号

分类

说明

示例

1

2D 框

2D 框为矩形,在所有的标注工具里,2D 框是最简单的数据标注类型,成本也是最低的。

2

语义分割

语义分割是图像标注领域比较精准的标注类型,同时也是耗时比较长的标注类型,标注员需要对图片上的所有内容进行标注。

3

多边形分割

与 2D 框相比,多边形分割用于图片和视频中精确的物体检测和位置定位。 与 2D 框相比,多边形分割更精准,但也更耗时,成本更高。

4

点标注

通过多个连续的点确定巨大和微小物体的形状变化,通常用于统计模型以及姿势或面部识别模型。

5

线标注

主要用于自动驾驶车辆的道路识别,定义车辆,自行车,相反方向交 通灯,分叉路等不同道路。

6

视频标注

以帧为单位在一系列图像中定位和跟踪物体。多用于训练车辆、 行人、骑行者、道路等自动驾驶预测模型。

7

3D 立方体标注

用于从 2D 图片和视频中获得空间视觉模型,进而进而获得灭点,测量物体间的相对距离。

三、常用数据标注工具

一款好用的标注工具是提升标注效率与产出高质量标注数据的关键。目前市面上常见、通用的数据标注工具有LabelImg、 Labelme、 RectLabel、  OpenCV/CVAT、 VOTT、 Boobs、精灵标注(Colabeler)等。

    (1)LabelImg 是一个图形图像标注工具。它是用 Python 编写的,并使用 Qt 作为图形界面。LabelImg 标注以 PASCAL VOC 格式(ImageNet 使用的格式)保存为 XML 文件。此外,它还支持 YOLO 格式。

    安装:pip install labelimg

labelimg快捷键

快捷键

功能

Ctrl + Q

退出软件

Ctrl + U

Open Dir

Ctrl + R

Change Save Dir

Ctrl + S

保存图像

Ctrl + L

线框颜色

Ctrl + J

移动编辑标注框

Ctrl + D

复制框

Ctrl + H

隐藏所有的框

Ctrl + A

显示所有的框

space

标记当前图片已标记

Ctrl + +

放大

Ctrl + =

原始大小

Ctrl + F

图像适应窗口

Ctrl + E

编辑标签

W

画框

Delete

删除框

Ctrl + shift + F

图像适应宽度

D

Next Image

A

Prev Image

Ctrl + shift + O

打开的文件夹只显示.xml文件

(2)Labelme 由 MIT 开发,支持多边形、圆形等多种标注形式,还可用于语义分割与实例分割标注的扩展性,支持导出 JSON 格式标注文件,适配复杂视觉任务。这款软件完全开源免费,支持多人协作标注,并内置数据增强功能(如镜像、旋转),提升数据集多样性。但界面复杂度较高,需一定学习成本;仅支持基础标注格式导出。适用于学术研究、小规模图像分割与目标检测混合任务。

安装:pip install labelme

注:①安装labelme时,使用python大于等于3.9的版本,否则会出现“TypeError: 'type' object is not subscriptable”报错;

②注意去勾选“同时保存图像数据”并勾选自动保存,选好输出路径。

(3)Label Studio是一个功能强大的开源数据标注工具,可助力用户创建高质量的标注数据集,广泛应用于各类机器学习与深度学习项目。

安装:

conda create --name labelstudio python=3.9   #创建虚拟环境

conda activate labelstudio

pip install label-studio

label-studio

先注册,用注册的用户名登录即可使用

项目名称可以自定义,去图片导入界面打开图片目录进行图片导入

设置标签,选择对应的场景,这里假设要标注图片中的汽车、天空为例,添加“car”、”sky”2个标签,点击save

此时就可以双击进行标注了

标注完毕可进行导出,导出可选择json、csv等格式,此时,数据集就制作完毕了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值