1.4 数据标注【斯坦福21秋季：实用机器学习中文版】

最新推荐文章于 2025-07-04 13:13:17 发布

原创最新推荐文章于 2025-07-04 13:13:17 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#列表 #python #排序

【李沐AI课程】机器学习斯坦福专栏收录该内容

6 篇文章

订阅专栏

当面临数据标注不足的问题，可以采用半监督学习、众包和弱监督学习策略。半监督学习利用少量标注数据构建模型，通过自学习或主动学习迭代提升标注质量。众包可以通过简化用户界面和质量控制实现大量低成本标注。弱监督学习则依赖于编程规则或模式识别，虽不如全监督准确，但仍能训练出可用模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据标注

本节课主要讲数据如果没有足够的标注(label)应该怎么办。
出处：https://www.bilibili.com/video/BV1HL41147aL?spm_id_from=333.999.0.0
参考：https://www.bilibili.com/read/cv13774488?spm_id_from=333.999.0.0

一、数据标注思路
在这里插入图片描述
最理想的情况就是有足够的数据与足够的标注(label)，而你如果想要改善数据的标注(label)：

当你已经有一部分标注，可以使用半监督学习
如果你的标志不够多，但你有钱，可以花钱去众包，找人来标注
如果你的标注不够，但你又没钱，你需要弱监督学习
实在不行用无监督学习方法

二、半监督学习 Semi-Supervised Learning(SSL)
1.目标对象
半监督学习适用于标注不完整的数据集。虽然有一小部分数据有标注，但是绝大部分数据是没有标注的。比如说浏览一个网站，大多数用户是简单的浏览，虽然形成了很多数据，但是作用不大，没有提供有效的反馈；一小部分用户是可以提供反馈的，你可以清洗这小部分数据，然后进行之后的操作。
2.假设

连续性假设：如果一个样本与另一个样本是相似的，那么这两个样本可能是相似的。
聚类假设：可能出现数据存在内在的类别, 同一类的数据具有相同的标签，比如用户群体可能会出现相似点。
流型假设：可能看起来你收集的数据维度较高，其实实际上是维度低一些的。数据实际上是一个低维度的流型(manifold)。

3.举例——自学习(self-training)
在这里插入图片描述
简单过程:
（1）通过已有标注的数据建立一个模型；
（2）用这个模型对未标注的数据来产生一个标签(label)；
（3）只保留其中质量最好的标签并将这些数据加到已标注数据内。
（4）迭代上述操作，直至结束。
自学习过程中的模型需要优先考虑标注的准确性，可以使用一些消耗大的模型。

三、数据众包 Crowdsourcing
1.影响因素
使用用众包方法来标注数据时，会受到标数据的人的教育水平、工作态度影响，所以你需要考虑：

用户界面尽量方便易懂，需要关注分类人的学历背景，并给予一定的指示。
成本，不同任务价格有所区别。
质量控制，需要想办法来确保标注的质量。

2.举例——主动学习(Active learning)
常常和半监督学习结合起来，掺杂人的主观分工，在已有的样本中进行标注。
在这里插入图片描述
简单过程：
（1）通过已有标注的数据建立一个模型；
（2）用这个模型对未标注的数据来产生一个标签(label)；
（3）保留其中置信度高的数据标签并将这些数据加入到已标注数据内；对于置信度低的数据进行人工（众包）标记，放置在数据集中。
（4）迭代上述操作，直至结束。