《RETHINKING THE VALUE OF NETWORK PRUNING》论文笔记

最新推荐文章于 2024-08-10 08:28:27 发布

m_buddy

最新推荐文章于 2024-08-10 08:28:27 发布

阅读量646

点赞数

CC 4.0 BY-SA版权

分类专栏：模型压缩&加速文章标签： pruning

本文链接：https://blog.csdn.net/m_buddy/article/details/108190907

本文探讨了网络剪枝的常见做法，包括结构化剪枝和非结构化剪枝，以及剪枝后是否需要在重要权重基础上进行微调。研究发现，直接从随机初始化的剪枝网络训练能得到与微调相当甚至更好的性能。剪枝的意义在于寻找最优网络结构，而不仅是识别重要权重。文章对比了统一比例与自适应剪枝的效果，以及不同初始化和学习率对性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考代码：rethinking-network-pruning

1. 概述

导读：在模型进行部署的时候一般会希望模型的尽可能小，减少infer时候资源的消耗，其中比较常用的方式就是模型剪枝，其中一般常用的方式是结构化剪枝，这样会硬件也比较友好，非结构化剪枝也是可以的。其采取的步骤是首先训练一个较大的模型，之后使用剪枝算法检出那些不重要的参数，之后再在重要参数的基础上进行finetune，以期望恢复网络性能。这篇文章对剪枝的后半段进行思考， 是否真的需要在重要权重的基础上进行finetune？剪枝之后的网络使用随机初始化对于结构化与非结构化都有效？剪枝之后初始化方式与学习率的影响？ 文章中一个重要的发现是直接从剪枝之后的结构使用随机初始化（而非在重要权重上finetune）能得到持平甚至更好的网络性能。这样的结论是基于文章的如下观察得到的：
1）剪裁之后得到的重要权重对于剪裁之后的网络结构来说并不是那么重要，从其随机初始化上重新训练得到的结果在性能上持平甚至更好（finetune的模型可能会陷入局部最小值从而影响性能）；
2）网络的剪枝其意义并不在于去寻找原有网络中的重要权重，而是去寻找最为适合的网络结构本身；
3）网络的剪枝可以看作是今后设计网络时候的指导思想，从而设计更加高效的网络；

传统上对于网络的剪枝压缩主要分为3个过程，见下图1所示：