1 概要
近些年,深度神经网络发展迅速,而Gaussian process (GP)只是被当做传统的非参数工具。而在无限宽度的单层神经网络时,这两者的等价性在1994年就被发现了。
在无限网络宽度的限制下,参数为独立同分布的单层全连接神经网络等价于高斯过程(Gaussian process (GP))。这样就可以通过评估GP,在回归任务上进行无限宽度神经网络的贝叶斯预测。最近,模仿多层随机神经网络的核函数有所发展,但也不是贝叶斯的。所以,目前这些核函数还没有被用来作为GP的协方差函数,进而用于深度神经网络的贝叶斯预测。
我们发现了无限宽度的深度神经网络和GPs的等价性。我们进一步发现了一个有效的计算GPs协方差函数的方法。然后在MNIST、CIFAR10任务上使用这GPs来进行贝叶斯预测。我们发现随着神经网络宽度的增加,神经网络的准确性会接近对应的GPs,GPs的不确定性和神经网络的预测错误高度相关。
我们将GP对应的无限宽度深度神经网络叫做Neural Network GP (NNGP),是以循环的、确定性的核函数的形式。
参考文章:2018年《DEEP NEURAL NETWORKS AS GAUSSIAN PROCESSES》
源码:https://github.com/brainresearch/nngp.
2 通过GPs获取深度、无限宽度神经网络
2.1 定义
2.2单层神经网络和GP
2.3 深度神经网络和GP
2.4 使用GP的神经网络的贝叶斯训练
3 实验结果
如下表,可以看到NNGP经常好于有限宽度神经网络。我们还发现当NN网络的层宽度增加时,其会接近NNGP的效果。NN网络通常因其灵活的表达学习而表现突出,而NNGP却使用固定的偏置函数;然而,实验中我们发现NN相比NNGP没有显著的表现优势。
不确定性:使用GP的一个好处是:由于贝叶斯的特性,所有预测拥有不确定性估计。对于传统的神经网络,捕捉模型的不确定性是很困难的。在NNGP,每一个测试点都有一个明确的预测方差估计。在实验中,我们发现NNGP的不确定性估计和预测错误高度相关。