Avoiding False Local Minima by Proper Initialization of Connections

本文探讨了一种避免神经网络训练中局部最优的方法,通过合理的权重初始化策略确保网络能够更好地学习。针对单隐藏层网络,提出了输入层到隐藏层及隐藏层到输出层权重初始化的具体准则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Wessels L. F. A. and Barnard E. Avoiding False local minima by proper initialization of connections. In IEEE Transactions on Neural Networks, 1992.

避免局部最优的一种初始化方法, 文中给出的‘合适的’初始化方法的准则还挺有道理.

主要内容

本文主要考虑单隐层的情形, 即
f ( x ) = ∑ j = 1 H v j h ( ∑ i = 1 n w i j x i + w 0 j j ) + v 0 . f(x) = \sum_{j=1}^H v_j h(\sum_{i=1}^n w_{ij}x_i + w_{0jj}) + v_0. f(x)=j=1Hvjh(i=1nwijxi+w0jj)+v0.
其中 h ( ⋅ ) h(\cdot) h()表激活函数.

下面将分别讨论输入层-隐藏层以及隐藏层-输出层的权重初始化的一些准则.

输入层-隐藏层

对于隐藏层的某个结点而言,
y = w 0 + w 1 x 1 + ⋯ + w n x n . (1) \tag{1} y = w_0 + w_1x_1 + \cdots + w_nx_n. y=w0+w1x1++wnxn.(1)

我们希望这些结点避免以下情况的发生:

  1. 离群的结点: 即大部分样本点距离分类平面(边界) y ( x ) = w T x + w 0 y(x) = w^T x + w_0 y(x)=wTx+w0 都很远,
    这会导致这些样本点对应的 y ( x ) y(x) y(x)要么是很大要么是非常小.
    前者会导致弱化其它结点的影响, 后者会导致这个结点意义不大;
  2. 重复的结点: 如果两个结点的分类平面非常接近, 容易产生冗余的结果;
  3. 结点存在死区(即落入该区域的所有结点都是inactive的).

我们要遵循以下原则来避免上述的几点问题:

  1. 决策平面应当在样本空间中合理划分;
  2. 决策平面的朝向( w w w)应当尽可能有所变换;
  3. 样本空间的每个区域都应该有至少一个结点是active的.

注: 因为以前的论文大都使用sigmoidal类的激活函数, 所以一般来说 y > 0 y > 0 y>0被认为是active的, 反之是inactive的.

对于1, 2, 作者希望权重向量 w i , i = 1 , 2 , ⋯   , H \bm{w}_i, i = 1,2,\cdots, H wi,i=1,2,,H之间在空间中是均匀分布的(注意该向量包括偏执 w 0 w_0 w0), 比如在二维空间中, 极坐标系下, w i = ( r i cos ⁡ θ i , r i sin ⁡ θ i ) \bm{w}_i = (r_i\cos \theta_i, r_i\sin\theta_i) wi=(ricosθi,risinθi),
θ i = { π H ⋅ i i   odd π H ⋅ i + π   i   even . \theta_i = \left \{ \begin{array}{ll} \frac{\pi}{H} \cdot i & i \: \text{odd} \\ \frac{\pi}{H} \cdot i + \pi & \: i \: \text{even}. \end{array} \right . θi={HπiHπi+πioddieven.

注: 文中实际上选择的是 w i = ( r cos ⁡ θ i + 0.5 , r sin ⁡ θ i + 0.5 ) \bm{w}_i = (r\cos \theta_i + 0.5, r\sin\theta_i + 0.5) wi=(rcosθi+0.5,rsinθi+0.5), 因为其假设 x i ∈ [ 0 , 1 ] x_i \in [0, 1] xi[0,1].

为了进一步完善第一点(说是为了最大化方差但是这个不是那么直观), 向量的模长 r i r_i ri
r i = 1 i r 1 ,   r 1 = 0.5. r_i = \frac{1}{i}r_1, \: r_1 = 0.5. ri=i1r1,r1=0.5.

为了保证第三点, 对于 w i \bm{w}_i wi的朝向问题进行一个限制, 其需要保证 y ( 0 ) > 0 y(0) > 0 y(0)>0, 实际上就是需要满足 w 0 > 0 w_0>0 w0>0.

隐藏层-输出层

作者没有明确给出构造方法, 只是说太大或者太小都不太好.
且建议 v i v_i vi大小一致以保证对各结点没有偏见.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值