图卷积（4）——谱域图卷积（3）

最新推荐文章于 2024-02-27 22:24:14 发布

maplezys

最新推荐文章于 2024-02-27 22:24:14 发布

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：笔记（杂）

本文链接：https://blog.csdn.net/qq_41006629/article/details/109360716

笔记（杂）专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了三种谱域图卷积网络——SCNN、ChebNet和GCN。SCNN利用可学习的对角矩阵进行图卷积，但参数量大且计算复杂度高。ChebNet通过切比雪夫多项式减少参数量和计算复杂度，而GCN进一步简化，仅用一阶切比雪夫多项式，有效降低了模型复杂性。GCN通过renormalization trick解决了数值稳定性问题，适合大规模图数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图卷积（4）——谱域图卷积（3）

介绍三种谱域图卷积网络——SCNN、ChebNet和GCN。三者均是以下式子的特例：
$\star_{G} g_{\theta}=U g_{\theta} U^{T} x=U\left(\begin{array}{ccc} \hat{g}\left(\lambda_{1}\right) & & \\ & \ddots & \\ & & \hat{g}\left(\lambda_{n}\right) \end{array}\right)\left(\begin{array}{c} \hat{x}\left(\lambda_{1}\right) \\ \hat{x}\left(\lambda_{2}\right) \\ \vdots \\ \hat{x}\left(\lambda_{n}\right) \end{array}\right)$
假设一层图卷积的输入为 $\in \mathbb{R}^{n \times C}$ ，输出便为 $\in \mathbb{R}^{n \times F}$ ， $n$ 代表图中的 $n$ 个节点， $C$ 代表每个节点有 $C$ 个通道。每一次图卷积，变化的是每个节点信号的通道数（比如这里写的 $C$ 到 $F$ ），不变的是 $n$ 个节点的连接方式。

SCNN

出自论文Spectral networks and locally connected networks on graphs，中心思想是用可以学习的对角矩阵代替谱域的卷积核。具体公式定义如下：
$x_{k+1, j}=h\left(U \sum_{i=1}^{C_{k-1}} F_{k, i, j} U^{T} x_{k, i}\right)\left(j=1 \cdots C_{k}\right) \quad F_{k, i, j}=\left(\begin{array}{lll} \theta_{1} & \\ & \ddots \\ & & \theta_{n} \end{array}\right)$
其中（老样子，式子介绍了）， $C_k$ 是第 $k$ 层的通道个数， $x_{k,i} \in \mathbb{R}^{n}$ 代表第 $k$ 层的第 $i$ 个通道的特征图， $F_{k,i,j}\in \mathbb{R}^{n \times n}$ 代表参数化的谱域图卷积的卷积核矩阵，是一个对角矩阵，包含了 $n$ 个可学习的参数， $h(\cdot)$ 为激活函数。
当输入和输出通道数都为1时，上述公式便简化为以下式子，便于理解
$x_{k+1} = h(UF_kU^Tx_k)$
$U^Tx_k$ 表是从空域到谱域， $F_kU^Tx_k$ 表示对每一个“频率分量”放大或者缩小，最后 $UF_kU^Tx_k$ 表示从谱域到空域。

SCNN的缺点

从上述公式可以看出， $F$ 的参数量为 $\times i \times j \times n$ ，参数复杂度过大，计算复杂度为 $O (n)$ ，当节点数 $n$ 过多时容易过拟合；
计算拉普拉斯矩阵的特征值分解十分耗时，计算复杂度为 $O(n^{3})$ ，当面临社交网络这种节点数达到上百万的情况时，计算消耗过于庞大；
无法保证局部连接；

ChebNet

为了解决SCNN计算复杂度过高的问题，ChebNet采用了Chebyshev（切比雪夫）多项式来代替谱域的卷积核。论文地址：Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering

Chebyshev多项式

切比雪夫多项式在逼近理论中有重要的应用，可用于多项式插值。具体形式如下：
$\begin{aligned} T_0(x) &= 1 \\ T_1(x) &= x \\ T_{n+1}(x) &= 2xT_n(x) - T_{n-1}(x) \end{aligned}$
那对于矩阵来说，只需切比雪夫多项式中第一项的1改为 $I$ ， $x$ 改为矩阵 $L$ 即可。

理解ChebNet

将谱域图卷积核换成切比雪夫多项式，原用的对角矩阵定义为 $g_{\theta}=\operatorname{diag}\left(U^{T} g\right)$ ，那么我们定义 $\hat{\Lambda}=\frac{2}{\lambda_{\max }}-I_{n}$ ，则 $g_{\theta}(\Lambda)=\sum_{k=0}^{K} \beta_{k} T_{k}(\hat{\Lambda})$ ，那么图卷积操作便可以化简为：
$\begin{aligned} x \star_{G}g_{\theta} &= Ug_{\theta}U^Tx \\ &=U \sum_{k=0}^{K} \beta_{k} T_{k}(\hat{\Lambda}) U^{T}x \\ &= \sum_{k=0}^{K} \beta_{k} T_{k}\left(U \hat{\Lambda} U^{T}\right) x \\ &= \sum_{k=0}^{K} \beta_{k} T_{k}\left( \hat{L} \right) x \end{aligned}$
第二行到第三行推导过程略，如果是大佬可以自行推导。.这样一来，我们便不再需要对拉普拉斯矩阵进行特征分解获得其特征向量了，可以直接使用拉普拉斯矩阵。

ChebNet特点

卷积核中只有参数 $\beta_k$ 需要学习，一共 $k + 1$ 个参数，大大减少了参数量；
采用切比雪夫多项式代替谱域图卷积的卷积核后，不需要再对拉普拉斯矩阵进行特征分解，省略了最耗时的步骤；
卷积核有了严格的空间局限性， $k$ 就是卷积核的“感受野半径”，即将距离中心节点 $k$ 个节点作为邻域节点（ $k = 1$ 时便相当于普通的 $3\times3$ 卷积，邻域为1）；

GCN

GCN，出自论文Semi-Supervised Classification With Graoh Convolutional Networks，可以视为对ChebNet的进一步简化，GCN仅仅考虑1阶切比雪夫多项式的情况：
$\begin{aligned} T_0(\hat{L}&)=I, T_1(\hat{L})=\hat{L} \\ \hat{L}&=\frac{2}{\lambda_{\max }} L-I_{n} \\ \lambda&_{\max} = 2 \\ L=I_n-&D^{-1/2}WD^{-1/2} \end{aligned}$
那么图卷积操作便可以写为：
$\begin{aligned} x \star_{G}g_{\theta} &= \sum_{k=0}^{K} \beta_{k} T_{k}\left( \hat{L} \right) x = \sum_{k=0}^{1} \beta_{k} T_{k}\left( \hat{L} \right) x \\ &= \beta_0T_0(\hat{L})x + \beta_1T_1(\hat{L})x \\ &= (\beta_0+\beta_1\hat{L})x \\ &= (\beta_0+\beta_1(L-I_n))x \\ &= (\beta_0-\beta_1(D^{-1/2}WD^{-1/2}))x \end{aligned}$
进一步简化，令 $\beta_0=-\beta_1=\theta$ ，这样使得每个卷积核需要学习的参数只有一个，那么此时图卷积操作的公式为： $\star_{G} g_{\theta}=\left(\theta\left(D^{-1 / 2} W D^{-1 / 2}+I_{n}\right)\right) x$
由于 $D^{-1 / 2} W D^{-1 / 2}+I_{n}$ 的特征值范围在 $[0, 2]$ ，如果在深度神经网络中使用该算子，那么在经过很多层的梯度反传之后，会导致数值发散和梯度弥散/爆炸。原文中，为了解决该问题，作者提出了一个renormalization trick。作者定义了一个新的邻接矩阵 $\tilde{W}=W+I_n$ ，新的度矩阵便为 $\hat{D}=\sum_{i} \tilde{W}_{i j}$ 。那么最终的图卷积操作的公式为： $\star_{G} g_{\theta}=\theta\left(\tilde{D}^{-1 / 2} \tilde{W} \tilde{D}^{-1 / 2}\right) x$
关于GCN的思考：

在忽略输入和输出通道的情况下，一个卷积核需要学习的参数只有一个 $\theta$ ，极大程度上减少了参数量；
虽然卷积核减小了（GCN采用 $k = 1$ 时的切比雪夫多项式，邻域大小为1，相对于 $3\times3$ 的普通卷积），但论文作者认为可以通过堆叠多层GCN来扩大感受野；
将一层GCN类比到图像当中，相对于一个 $3\times3$ 的卷积核只有一个参数，虽然模型参数量极大程度减小了，但模型的能力也被削弱，可能难以学习一些复杂的任务；