数据标注的劳动力选择与标注量估算
立即解锁
发布时间: 2025-09-01 00:04:21 阅读量: 18 订阅数: 36 AIGC 


人机协同机器学习实战
# 数据标注的劳动力选择与标注量估算
## 1. 确保工作与职业发展路径
若一开始只需兼职标注员,但最终可能需要全职标注员,可在任务描述中提及成为全职员工的途径,以吸引优秀人才。不过,应基于个人绩效来规划全职工作机会,避免形成竞争环境。例如,不要说“表现最好的 10 人将获得 3 个月的合同”,而应说“达到 X 工作量且准确率为 Y 的人将获得 3 个月的合同”。若无法兑现承诺,就不要轻易许下,以免形成剥削性的工作环境。
若市场提供反馈和评价机制,要充分利用。表现出色的员工应得到认可,这有助于他们未来的工作和职业发展。
## 2. 其他劳动力类型
除了内部员工、外包员工和众包员工这三种常见的劳动力类型,还有其他类型的劳动力可供选择。
### 2.1 直接签约个人
在运营小公司时,直接与个人签约比使用外包公司更易成功。一些在线合同标注员市场能让你了解某人过去的工作情况,直接与他们合作更易确保公平支付和开放沟通。不过,这种方式并非总能大规模应用,但适用于一次性的小型标注项目。
### 2.2 其他劳动力来源
还可考虑以下几种劳动力:终端用户、志愿者、游戏玩家和计算机生成的标注。
#### 2.2.1 终端用户
若能从终端用户处免费获取数据标签,这将是一种强大的商业模式。从终端用户获取标签的能力甚至可能是决定产品构建的重要因素。若能利用免费的用户标注数据开发出首个可用的应用程序,之后再考虑开展标注项目。此时,还能通过主动学习对用户数据进行采样,以集中标注工作。
许多应用程序依靠用户反馈来驱动机器学习模型,但实际上仍需大量标注员。以搜索引擎为例,用户的搜索选择能帮助搜索引擎在未来更好地匹配类似查询,但搜索相关性仍是雇佣标注员的最大用例。付费标注员会对产品页面进行分类、提取关键词、选择最佳展示图片等,每个任务都是单独的标注任务。大多数能从终端用户获取数据的系统,也会花费大量时间离线标注相同的数据。
用户提供的训练数据存在的最大问题是,用户实际上主导了采样策略。若只采样当天用户感兴趣的数据,可能会导致数据缺乏多样性。用户最常进行的交互可能与随机分布不同,也不一定是模型最需要学习的内容,这可能导致模型仅在常见用例中准确,而在其他情况下表现不佳。
若有大量原始数据,应对终端用户偏差的最佳方法是使用代表性采样,找出用户标注中缺失的内容,然后对采样的项目进行额外标注。
一些获取用户生成标注的巧妙方法是间接的,例如 CAPTCHA。若完成的 CAPTCHA 要求转录扫描文本或识别照片中的物体,很可能是在为某家公司创建训练数据。不过,这种任务的劳动力有限,除非所在组织能提供此类劳动力,否则可能不值得尝试。
即使不能依赖用户进行标注,也可利用他们进行不确定性采样。若不存在数据敏感性问题,定期查看模型在部署时预测不确定的示例,这有助于了解模型的不足之处,标注这些采样项目也能帮助改进模型。
#### 2.2.2 志愿者
对于具有内在益处的任务,可尝试招募志愿者作为众包劳动力。例如在 2010 年海地地震救灾中,招募了 2000 名海地侨民志愿者,他们将海地克里奥尔语的短信翻译成英语,并对请求进行分类和标注位置。在地震后的第一个月,向英语国家的救灾人员发送了超过 45000 份结构化报告,平均处理时间不到 5 分钟。同时,还将翻译数据分享给微软和谷歌的机器翻译团队,用于开发海地克里奥尔语的机器翻译服务。
不过,总体而言,众包志愿者项目很难开展。若想寻找志愿者,建议通过强大的社交关系来寻找和管理他们。直接与人们联系并围绕少量志愿者建立社区,更有可能取得成功。
#### 2.2.3 游戏玩家
将工作游戏化介于付费员工和志愿者之间。大多数从游戏中获取训练数据的尝试都以失败告终。不过,在追踪欧洲大肠杆菌疫情时,曾在在线游戏《农场小镇》中找到德语使用者,并以游戏内的虚拟货币支付他们标注新闻文章。但这只是一次性的用例,目前除了游戏内的 AI 或专注的学术研究,很
0
0
复制全文
相关推荐









