知识蒸馏学习笔记

iiisChuan

已于 2025-03-07 20:23:55 修改

阅读量281

点赞数 1

CC 4.0 BY-SA版权

文章标签：学习笔记

于 2025-03-07 15:32:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iiisChuan/article/details/146096521

Softmax函数

原始的softmax函数：

加了温度这个变量之后的softmax函数:

这里的T就是温度。
原来的softmax函数是T = 1的特例。 T越高，softmax的output probability distribution越趋于平滑，其分布的熵越大，负标签携带的信息会被相对地放大，模型训练将更加关注负标签。

知识蒸馏的具体方法:

步骤是先训练教师网络，然后将教师网络的soft target高温蒸馏给学生网络。

高温蒸馏过程的目标函数由distill loss(对应soft target)和student loss(对应hard target)加权得到。示意图如上。

损失函数的第一项是教师网络产生的logits经过高温T的softmax输出来作为soft target，学生网络在相同高温T下的softmax输出，这两者做cross entropy loss；

第二项是当温度参数为1时，学生网络的softmax输出和hard label这两者之间做cross entropy loss。

实验发现损失函数的第二部分所占比重比较小的时候，能产生较好的结果。

参考：

【经典简读】知识蒸馏(Knowledge Distillation) 经典之作 - 知乎

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。