各位朋友大家好,欢迎来到月来客栈。由于公众号推文不支持后续修订, 所以本文将同步推送至网站www.ylkz.life,欢迎大家关注!
1 引言
在前面的一篇文章[1]中笔者介绍了在单标签分类问题中模型损失的度量方法,即交叉熵损失函数。同时也介绍了多分类任务中常见的评价指标及其实现方法[2]。在接下来的这篇文章中,笔者将会详细介绍在多标签分类任务中两种常见的损失评估方法,以及在多标签分类场景中的模型评价指标。
2 方法一
将原始输出层的softmax操作替换为simoid操作,然后通过计算输出层与标签之间的sigmoid交叉熵来作为误差的衡量标准,具体计算公式如下:
l o s s ( y , y ^ ) = − 1 C ∑ i = 1 m [ y ( i ) ⋅ log ( 1 1 + exp ( − y ^ ( i ) ) ) + ( 1 − y ( i ) ) ⋅ log ( exp ( − y ^ ( i ) ) 1 + exp ( − y ^ ( i ) ) ) ] ( 1 ) loss(y,\hat{y})=-\frac{1}{C} \sum_{i=1}^m\left[y^{(i)}\cdot\log\left(\frac{1}{1+\exp(-\hat{y}^{(i)})}\right)+\left(1-y^{(i)}\right)\cdot\log\left(\frac{\exp(-\hat{y}^{(i)})}{1+\exp(-\hat{y}^{(i)})}\right)\right]\;\;\;\;\;(1) loss(y,y^)=−C1i=1∑m[y(i)⋅log(1+exp(−y^(i))1)+(1−y(i))⋅log(1+exp(−y^(i))exp(−y^(i)))](1)
其中 C C C表示类别数量, y ( i ) y^{(i)} y(i)和 y ^ ( i ) \hat{y}^{(i)} y^(i)均为一个向量,分别用来表示真实标签和未经任何激活函数处理的网络输出值。
从式 ( 1 ) (1) (1)可以发现,这种误差损失衡量方式其实就是在逻辑回归中用来衡量预测概率与真实标签之间误差的方法。
2.1 numpy
实现:
根据式 ( 1 ) (1) (1)的计算公式,可以通过如下Python代码来完成损失值的计算:
def sigmoid(z):
return 1 / (1 + np.exp(-z))
def compute_loss_v1(y_true, y_pred):
t_loss = y_true * np.log(sigmoid(y_pred)) + \
(1 - y_true) * np.log(1 - sigmoid(y_pred)) # [batch_size,num_class]
loss = t_loss.mean(axis=-1) # 得到每个样本的损失值, 这里可以是
return -loss.mean() # 返回整体样本的损失均值(或其他)
if __name__ == '__main__':
y_true = np.array([[1, 1, 0, 0], [0, 1, 0, 1]])
y_pred = np.array([[0.2, 0.5, 0, 0], [0.1, 0.5, 0, 0.8]])
print(compute_loss_v1(y_true, y_pred)) # 0.5926
当然,在TensorFlow 1.x
和Pytorch
中也分别对这两种方法进行了实现。
2.2 TensorFlow
实现
在Tensorflow 1.x
中,可以通过tf.nn
模块下的sigmoid_cross_entropy_with_logits
方法进行调用:
def sigmoid_cross_entropy_with_logits(labels, logits):
loss = tf.nn.sigmoid_cross_entropy_with_logits(labels=labels, logits=logits)
loss = tf.reduce_mean(loss, axis=-1)
return tf.reduce_mean(loss)
if __name__ == '__main__':
y_true = tf.constant([[1, 1, 0, 0], [0, 1, 0, 1]],dtype=tf.float16)
y_pred = tf.constant([[0.2, 0.5, 0, 0], [0.1, 0.5, 0, 0.8]],dtype=tf.float16)
with tf.Session() as sess:
loss = sess.run(sigmoid_cross_entropy_with_logits(y_true,y_pred))
print(loss) # 0.5926
当然,在模型训练完成后,可以通过如下代码来得到预测的标签结果和相应的概率值:
def prediction(logits, K):
y_pred = np.argsort(-logits, axis=-1)[:,:K]
print("预测标签:",y_pred)
p = np.vstack([logits[r,c] for r,c in enumerate(y_pred)])
print("预测概率:",p)
prediction(y_pred,2)
#####
预测标签:
[[1 0]
[3 1]]
预测概率:
[[0.5 0.2]
[0.8 0.5]]
2.3 Pytorch
实现
在Pytorch
中,可以通过torch.nn
模块中的MultiLabelSoftMarginLoss
类来完成损失的计算:
if __name__ == '__main__':
y_true = torch.tensor([[1, 1, 0, 0], [0, 1, 0, 1]],dtype=torch.int16)
y_pred = torch.tensor([[0.2, 0.5, 0, 0], [0.1, 0.5, 0, 0.8]],dtype=torch.float32)
loss = nn.MultiLabelSoftMarginLoss(reduction='mean')
print(loss(y_pred, y_true)) #0.5926
同样,在模型训练完成后也可以通过上面的prediction
函数来完成推理预测。需要注意的是,在TensorFlow 1.x
中sigmoid_cross_entropy_with_logits
方法返回的是所有样本损失的均值;而在Pytorch
中,MultiLabelSoftMarginLoss
默认返回的是所有样本损失的均值,但是可以通过指定参数reduction
为mean
或sum
来指定返回的类型。
3 方法二
在衡量多标签分类结果损失的方法中,除了上面介绍的方法一之外还有一种常用的损失函数。这种损失函数其实就是我们在单标签分类中用到的交叉熵损失函数的拓展版,单标签可以看作是其中的一种特例情况。其具体计算公式如下所示:
l o s s ( y , y ^ ) = − 1 m ∑ i = 1 m ∑ j = 1 q y j ( i ) log y ^ j ( i ) ( 2 ) loss(y,\hat{y})=-\frac{1}{m}\sum_{i=1}^m\sum_{j=1}^qy^{(i)}_j\log{\hat{y}^{(i)}_j}\;\;\;\;\;\;\;\;\;\;(2) loss(y,y^)=−m1i=1∑mj=1∑q<