文献阅读 - Binarized Neural Networks_binarized neural networks: training deep neural ne-CSDN博客

本文深入探讨了二值化神经网络（BNNs），在推理阶段权值和激活仅限于+1或-1。研究发现，随机二值化比确定性二值化效果更优，尽管需要硬件支持。BNNs通过位操作减少内存占用和功耗，且在GPU运行时运算速度提升。实验表明，BNNs在多个基准任务上表现良好，包括多层感知器和卷积网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1

二值化神经网络（Binarized Neural Networks，BNNs）：推理（run-time）阶段，权值（weights）和激活（activations）均为二进制数值；训练阶段：使用二进制权值和激活计算参数梯度

训练BNNs的方法

网络前馈过程（forward pass）中，BNNs减小内存占用及访问（access），且多数运算为位操作（bit-wise operations），能够有效降低功耗（power-efficiency）

训练BNN时，将权值和激活限定为 $\pm 1$

二值化函数（binarization functions）：

（1）确定（deterministic）二值化函数：

$x^b = \mathrm{Sign}(x) = \begin{cases} +1 & \text{if} \ x \geq 0 \\ -1 & \text{otherwise} \end{cases} \tag{1}$

（2）随机（stochastic）二值化函数：

$x^b = \begin{cases} +1 & \text{with probability} \ p = \sigma(x) \\ -1 & \text{with probability} \ 1 - p \end{cases} \tag{2}$

其中， $\sigma$ 为“硬逻辑”（hard sigmoid）函数：

$\sigma(x) = \mathrm{clip}(\frac{x + 1}{2}, 0, 1) = \max(0, \min(1, \frac{x + 1}{2}))$

随机二值化函数性能优于确定二值化函数，但需要硬件生成随机序列，因此难以应用。

权值的梯度是实数值（real-valued），通过实值变量累加计算。

随机梯度下降（Stochasic Gradient Descent，SGD）采用有噪的小步长探索参数空间，各权值的随机梯度贡献累加平滑能够消除噪声。

计算参数的梯度时，向权重和激活项中添加噪声相当于了一种正则化，有助于提高模型的泛化能力。

本文训练BNNs的方法可以视为Dropout的变体，Dropout是随机将激活置零，本文是对权值和激活二值化。

符号函数量化（sign function quantization）

$\mathrm{Sign}(r)$

假设梯度 $\frac{\partial C}{\partial q}$ 的估计量 $g_q$ 已知，则梯度 $\frac{\partial C}{\partial r}$ 的估计量（straight-through estimator）为

$g_r = g_q 1_{|r| \leq 1} \tag{4}$

上式保留了梯度信息，但当 $r$ 过大时，丢弃（cancel）梯度。

$C$ ：迷你批次（minibatch）的损失函数
$\lambda$ ：学习速率衰减系数
$L$ ：网络层数
$\circ$ ：元素乘法（element-wise multiplication）。

Binarize()：指定权值和激活的二值化方法（确定、随机）；
Clip()：指定如何截断权值；
BatchNorm()：指定如何对激活批量标准化；
BackBatchNorm()：标准化层处，指定梯度如何反向传播；
Update()：梯度已知时，如何更新参数（ADAM、AdaMax）。

在这里插入图片描述

导数 $1_{|r| \leq 1}$ 可视为通过“硬正切”（hard tanh）传播梯度，表示为分段线性激活函数（piece-wise linear activation function）：

$\mathrm{Htanh}(x) = \mathrm{Clip}(x, -1, 1) = \max(-1, \min(1, x)) \tag{5}$

隐层单元通过 非线性符号函数（sign function non-linearity）得到二值激活（binary activations），其权值计算分为两步：

（1）将实数权值限定在 $- 1$ 和 $+ 1$ 之间：当权值更新使 $w^r$