- 博客(163)
- 收藏
- 关注
原创 为什么在模型训练的过程中有时候引入教师模型用于蒸馏?
知识蒸馏是一种通过大模型(教师模型)指导小模型(学生模型)训练的模型压缩技术。教师模型提供预测概率(soft label),学生模型结合真实标签和教师输出进行训练,利用KL散度损失和交叉熵损失优化性能。相比直接训练,蒸馏能传递更丰富的知识结构(如类间关系),使小模型获得接近大模型的效果,同时保持轻量化优势,适用于边缘设备部署等场景。核心流程是教师模型传授知识,学生模型吸收知识,最终实现高性能轻量化目标。
2025-05-31 20:48:01
376
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人