文章主要内容总结
本文针对大语言模型(LLMs)层剪枝后的性能下降问题,提出了一种名为LINEARPATCH的即插即用技术。通过分析发现,剪枝接口处的激活幅度不匹配(尤其是层间通道幅度差异和特殊标记的离群值)是性能下降的主要原因。LINEARPATCH通过以下方式解决该问题:
- 哈达玛变换(Hadamard Transformation):抑制特殊标记(如[BOS])的离群值,将激活值重新分布到所有通道,减少标记间的幅度方差。
- 通道缩放(Channel-wise Scaling):引入对角缩放参数矩阵,对齐剪枝前后的层间通道幅度。
- 矩阵融合:将哈达玛变换和通道缩放融合为一个对称矩阵(LINEARPATCH),插入剪枝接口,仅需一次矩阵乘法,推理开销可忽略。
- 内存高效的离线知识蒸馏:通过冻结模型其他参数,仅微调LINEARPATCH矩阵,使用5K样本和单卡30分钟即可进一步提升性能。
实验表明,在LLaMA-3-8B上剪枝5层时,LINEARPATCH保留了