Deep Linear Networks with Arbitrary Loss: All Local Minima Are Global

本文探讨深度线性网络的理论特性,证明了在特定条件下,任何局部最优解均为全局最优解。研究了深度线性网络的损失函数,通过数学证明展示了网络权重更新的全局最优性质。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Laurent T, Von Brecht J H. Deep linear networks with arbitrary loss: All local minima are global[C]. international conference on machine learning, 2018: 2902-2907.

问题

这篇文章是关于深度学习的一些理论分析.

假设这么一个网络:
\[ \hat{y}^{(i)}=W_LW_{L-1}\cdots W_1 x^{(i)}. \]
其中\(x\)是输入,\(W_k\)是第\(k\)层的权重,而\(\hat{y}\)是最后的输出. 没错,这篇文章研究的是深度线性网络的性质(没有激活函数). 当然,这样子,无论有多少层,这个网络最后是一个普通线性函数,所以,作者的本意应该只是借此来窥探深度学习的一些性质.

作者证明了,在满足一定条件下,这个深度线性网络,任何局部最优解都是全局最优解.

假设和重要结果

损失函数如此表示:
\[ \mathcal{L}(W_1, \ldots, W_L)=\frac{1}{N} \sum_{i=1}^N \ell (\hat{y}^{(i)}, y^{(i}) \]

假设

  1. \(d_k\)表示第\(k+1\)层的神经元个数,即\(d_0\)表示输入层的维度,\(W_k \in \mathbb{R}^{d_{k-1} \times d_k}\), \(d_L\)表示输出层的维度,
  2. \(d_k \ge \min \{d_0, d_L\}, 0 < k < L\),
  3. 损失函数关于\(\hat{y}\)凸且可微.

定理1:满足上面假设的深度线性网络,任意局部最优都是全局最优.

考虑下面问题p(2):
\[ \min \quad f(W_LW_{L-1}\cdots W_1), \]
并记\(A=W_LW_{L-1}\cdots W_1\).
则:

定理3:
假设\(f(A)\)是任意的可微函数,且满足:
\[ \min \{d_1, \ldots, d_{L-1}\} \ge \min \{d_0, d_L\}, \]
则关于p(2)的任意的极小值点\((\hat{W}_1, \ldots, \hat{W}_L)\),都将满足:
\[ \nabla f(\hat{A})=0 \quad \hat{A} := \hat{W}_L \hat{W}_{L-1}\cdots \hat{W}_1. \]

证明

注意到, 可表示成:
\[ \mathcal{L} (W_1, \ldots, W_L)=f(W_L\cdots W_1). \]
\(f(A)\)是关于\(A\)的凸的可微函数(注意是关于\(A\)), 所以,当\(\nabla f(\hat{A})=0\)的时候,\(\hat{A}\)便是\(f\),即\(\mathcal{L}\)得最小值点. 这意味着,只要我们证明了定理3,也就证明了定理1.

下证定理3:

首先定义:
在这里插入图片描述

记:
\[ F(W_1, \ldots, W_L) := f(W_L \cdots W_1). \]
容易证明(这部分论文中也给出了证明,不在此贴出):
在这里插入图片描述
其中:
在这里插入图片描述
不失一般性,假设\(d_L\ge d_0\), 因为令:
\[ g(A) := f(A^T) \]
则,\(g\)定义在\(d_0 \times d_L\)之上,且\(A^T\)使得\(f\)为极小值,当且仅当\(A\)使得\(g\)为极小值,所以\(d_0, d_L\)的地位是相同的,我们可以直接假设\(d_L \ge d_0\).

\((\hat{W}_1, \ldots, \hat{W}_L)\)是最小值点,则存在\(\epsilon>0\), 使得满足:
在这里插入图片描述
的点满足:
在这里插入图片描述

于是:
在这里插入图片描述
\(\mathrm{ker}(\hat{W}_{L-1}) = \{0\}\)的时候:
\[ \nabla f(\hat{A})=0. \]
于是只要证明, \(\ker(\hat{W}_{L-1}) = \not \{0\}\)的时候,上式也成立即可.

我们的想法是构造一族极小值点, 满足:
\[ \widetilde{A}=A, \]
通过一些性质,推出\(\nabla f(\hat{A})=0\).

首先证明,满足:
在这里插入图片描述
的点都是极小值点.

因为:

在这里插入图片描述
所以:
在这里插入图片描述
所以\((\tilde{W}_1, \ldots, \tilde{W}_L)\)也是一个极小值点.

那么如何来构造呢?

可知:
在这里插入图片描述
\(\hat{W}_{k, -}\)进行奇异值分解:
在这里插入图片描述
因为\(d_k \ge d_0, k\ge1\), 所以其分解是这样的:
在这里插入图片描述
注意到,这里体现了为什么需要\(d_k\ge \min \{d_L, d_0\}\), 否则\(\mathrm{ker}(\hat{W}_{k, -})\)不可能等于\(\{0\}\)(因为其秩永远小于\(d_0\)).

假设\(k_*\)是第一个\(\mathrm{ker}(\hat{W}_{k, -}) = \not\{0\}\)的,则下面的构造便是我们所需要的:
在这里插入图片描述
其中\(\hat{u}_{k-1}\)表示\(\hat{W}_{k-1, -}\)奇异值分解\(\hat{U}_{k-1}\)\(d_0\)列, 很明显,满足\(\hat{u}_{k-1}^T\hat{W}_{k-1,-}=0, k\ge k^* + 1\).

条件(8)容易证明,用数学归纳法证明(9):
第一项成立,假设第\(k\)项也成立, 于是
在这里插入图片描述
也成立,所以条件成立.

既然满足其构造方式的所有点都是点都是极小值点,那么:
在这里插入图片描述
注意,对所有的满足条件的\(\delta_k, w_k\)都成立.
\(k_* > 1\)的时候可得:
在这里插入图片描述
\(\mathrm{ker}(\hat{W}_{k_*-1,-})=\{0\}\), 所以:
在这里插入图片描述
注意到\(k_*=1\)的时候,也有上面的形式.

首先,令\(\delta_{k_*+1}=0\), 则\(\tilde{W}_{k_*+1}=\hat{W}_{k_*+1}\), 于是:

在这里插入图片描述
在去任意\(\delta_{k_*+1} > 0\), 与上式作差可得:
在这里插入图片描述
俩边同乘上\(\hat{u}_{k_*}^T\)可得:
在这里插入图片描述
因为\(w_{k_*+1}\)是任意的,所以,左端为0,以此类推,最后可得:
\[ \nabla f(\tilde{A})=\nabla f(\hat{A})=0. \]
证毕.

我没有把定理2放上来.

有一个方向,定理3中的极小值点改成极大值点,似乎定理也成立,即:
假设\(f(A)\)是任意的可微函数,且满足:
\[ \min \{d_1, \ldots, d_{L-1}\} \ge \min \{d_0, d_L\}, \]
则关于p(2)的任意的极大值点\((\hat{W}_1, \ldots, \hat{W}_L)\),都将满足:
\[ \nabla f(\hat{A})=0 \quad \hat{A} := \hat{W}_L \hat{W}_{L-1}\cdots \hat{W}_1. \]
我自己仿照论文的证明是可以证明出来的,不过,既然\(\nabla f(\hat{A})=0\), 那么\(\hat{A}\)依然是\(\mathcal{L}\)的最小值点,是不是可以这么认为,\(f\)压根没有存粹的极大值点.

另外作者指出,极小值点不能改为驻点,因为\(A=0\)便是一个驻点,但是没有\(f(0)\)必须为0的规定.
此外作者还说明了,为什么要可微等等原因,详情回见论文.

转载于:https://www.cnblogs.com/MTandHJ/p/11509043.html

### AKConv 卷积核概述 AKConv 是一种新型的卷积核设计方法,旨在通过支持任意采样形状和参数数量来提升模型的表现力和灵活性。这种方法突破了传统卷积操作对于固定形状和规则网格结构的限制,允许更灵活地定义卷积核的行为。 #### 1. **任意采样形状** 传统的卷积神经网络 (CNNs) 中使用的卷积核通常基于固定的矩形或方形窗口进行计算。然而,在实际应用中,图像或其他数据可能包含复杂的几何模式,这些模式无法被简单的正则化卷积捕捉到。AKConv 提出了可以通过自定义的方式设定卷积核的采样区域[^4],从而适应不同的输入特征分布情况。 #### 2. **任意参数数量** 除了能够调整采样的形态外,AKConv 还提供了控制所需学习参数总数的能力。这意味着开发者可以根据具体任务需求平衡精度与效率之间的关系。例如,在资源受限环境下运行的小型设备上部署深度学习模型时尤为重要。 #### 3. **定义初始采样位置** 为了实现上述目标之一即创建具有特定形式的空间布局点集作为滤波器作用范围内的像素坐标集合, 需要先确定一组基础参考点用于后续变换过程中的定位依据 。这部分工作涉及到如何科学合理的选择原始候选节点以及制定相应的转换策略使得最终得到的结果既满足理论上的完备性同时也具备良好的实践效果 . #### 4. **实施细节** 在技术层面实现这样一个高度可配置化的解决方案并非易事 , 它至少包括以下几个方面 : - 开发专用算法用来动态生成符合预期规格要求的新类型过滤单元 ; - 设计高效的训练机制确保整个系统能够在保持较高收敛速度的同时达到满意的泛化能力水平; 下面给出一段伪代码展示了一个简化版本的 AKConv 实现思路: ```python class AKConv(nn.Module): def __init__(self, in_channels, out_channels, num_params=8, sample_shape='custom'): super(AKConv, self).__init__() # Initialize parameters based on the number specified by 'num_params' self.weights = nn.Parameter(torch.randn(out_channels, in_channels, num_params)) # Define sampling positions according to given shape ('sample_shape') if sample_shape == 'custom': self.sample_positions = generate_custom_sample_positions() def forward(self, x): result = [] for i in range(len(x)): sampled_x = interpolate_at_positions(x[i], self.sample_positions) convolved_feature = torch.matmul(sampled_x, self.weights) result.append(convolved_feature) return torch.stack(result) def generate_custom_sample_positions(): """Generate custom sampling locations.""" pass def interpolate_at_positions(input_tensor, positions): """Interpolate values at specific spatial coordinates.""" pass ``` 此段代码仅作示意用途,并未完全体现所有功能特性及其内部运作原理。 #### 5. **使用场景** 由于其独特的特性和优势,Akconv 可广泛应用于多个领域如计算机视觉(CV),自然语言处理(NLP)等领域当中解决那些难以用标准工具有效应对的问题实例. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值