标签是可以很好的区分物料(文章或者物品)的分类体系,例如给狗打上标签1,给猫打上标签2,标签尽可能的细,但是要保证标签下物料相对充足,不能为了细化标签而每个物品都有一个独特的标签,这就违背了标签设计的初衷了。
常用的标签打标方法:1)人工打标;2)机器简单规则打标;3)nlp+cv模型打标;4)无监督打标。
1.人工打标需要先验知识,优点是准确度高,缺点是慢且贵;
2.机器简单规则打标优点速度快,缺点需要提前抽取物料的信息,比如实体词、关键字等;
3.nlp+cv模型打标的优点是模型训练好就可以自动打标了,缺点是训练打标模型需要大量的物料。
4.无监督打标:使用模型抽取物品的向量,再使用聚类算法进行聚类,聚类标签可以使用聚类ID或者对聚类的内容抽取最热的关键词作为标签;
如果团队算法人员充足,公司舍得投入搞标注数据,nlp+cv模型打标效果是最好的;如果条件不允许,机器简单规则打标是首要选择。当然凡是机器打标的最好过一遍人工(提高准确度),或者机器打分区分不太明显的过一下人工。
正常的打标体系如下: