前言
深度神经网络(DNN)有个很大的缺点就是计算量太大。为克服这类问题,研究人员在两方面做了工作。
第一,使用高性能硬件加速;
第二,使用模型压缩(Model compression)。
我们这里讲的就是软件的方法,即模型压缩。
模型压缩的方法:
- 网络剪枝(Network Pruning)
- 量化(Quantization)
- 低秩分解(Low-rank factorization)
- 知识蒸馏(Knowledge distillation)
网络剪枝(Network Pruning)
研究的核心问题就是:如何有效地裁剪模型参数且最小化精度的损失。
网络剪枝可以分为 结构化剪枝(Structured pruning) 和 非结构化剪枝(Unstructured pruning) 两类。
目的:
- 减小内存开销,提升运行速度
- 减小模型文件大小
量化(Quantization)</