模型剪枝的笔记

FergusJ

已于 2022-12-14 20:18:00 修改

阅读量350

点赞数

分类专栏：备份文章标签：剪枝算法

于 2022-12-14 20:14:45 首次发布

本文链接：https://blog.csdn.net/FergusJ/article/details/128320466

版权

本文探讨了移动端AI模型部署的需求与挑战，重点介绍了模型压缩中的剪枝技术。剪枝能有效减小模型尺寸和计算复杂度，提高效率。文章分析了剪枝论文为何多对比分类任务，并分享了剪枝的开源工具、实施步骤和相关资源链接，旨在帮助读者理解和实践模型剪枝。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近年来深度学习模型在计算机视觉、自然语言处理、搜索推荐广告等各种领域，不断刷新传统模型性能，并得到了广泛应用。随着移动端设备计算能力的不断提升，移动端AI落地也成为了可能。相比于服务端，移动端模型的优势有：

减轻服务端计算压力，并利用云端一体化实现负载均衡。特别是在双11等大促场景，服务端需要部署很多高性能机器，才能应对用户流量洪峰。平时用户访问又没那么集中，存在巨大的流量不均衡问题。直接将模型部署到移动端，并在置信度较高情况下直接返回结果，而不需要请求服务端，可以大大节省服务端计算资源。同时在大促期间降低置信度阈值，平时又调高，可以充分实现云端一体负载均衡。
实时性好，响应速度快。在feed流推荐和物体实时检测等场景，需要根据用户数据的变化，进行实时计算推理。如果是采用服务端方案，则响应速度得不到保障，且易造成请求过于密集的问题。利用端计算能力，则可以实现实时计算。
稳定性高，可靠性好。在断网或者弱网情况下，请求服务端会出现失败。而采用端计算，则不会出现这种情况。在无人车和自动驾驶等可靠性要求很高的场景下，这一点尤为关键，可以保证在隧道、山区等场景下仍能稳定运行。
安全性高，用户隐私保护好。由于直接在端上做推理，不需要将用户数据传输到服务端，免去了网络通信中用户隐私泄露风险，也规避了服务端隐私泄露问题

移动端部署深度学习模型也有很大的挑战。主要表现在，移动端等嵌入式设备，在计算能力、存储资源、电池电量等方面均是受限的。故移动端模型必须满足模型尺寸小、计算复杂度低、电池耗电量低、下发更新部署灵活等条件。因此模型压缩和加速就成为了目前移动端AI的一个热门话题。模型压缩和加速不仅仅可以提升移动端模型性能，在服务端也可以大大加快推理响应速度，并减少服务器资源消耗，大大降低成本。结合移动端AI模型和服务端模型，实现云端一体化，是目前越来越广泛采用的方案。

模型压缩和加速是两个不同的话题，有时候压缩并不一定能带来加速的效果，有时候又是相辅相成的。压缩重点在于减少网络参数量，加速则侧重在降低计算复杂度、提升并行能力等。模型压缩和加速可以从多个角度来优化。总体来看，个人认为主要分为三个层次：

算法层压缩加速。这个维度主要在算法应用层，也是大多数算法工程师的工作范畴。主要包括结构优化（如矩阵分解、分组卷积、小卷积核等）、量化与定点化、模型剪枝、模型蒸馏等。
框架层加速。这个维度主要在算法框架层，比如tf-lite、NCNN、MNN等。主要包括编译优化、缓存优化、稀疏存储和计算、NEON指令应用、算子优化等
硬件层加速。这个维度主要在AI硬件芯片层，目前有GPU、FPGA、ASIC等多种方案，各种TPU、NPU就是ASIC这种方案，通过专门为深度学习进行芯片定制，大大加速模型运行速度。

下面也会分算法层、框架层和硬件层三个方面进行介绍。