作者:禅与计算机程序设计艺术
1.简介
2017年,微软亚洲研究院发布了基于Self-Attention的GAN模型——SAGAN(Self-Attention Generative Adversarial Networks)。该模型通过将判别器(Discriminator)、生成器(Generator)和自注意机制(Self-Attention Mechanism)联合训练,消除了模型参数之间的依赖性,提高了模型的泛化能力。本文首先对Self-Attention相关背景进行介绍,然后阐述SAGAN的模型结构和训练过程,最后通过实验验证其有效性和效果。
一、Self-Attention概述
1.1 Attention是什么?
Attention mechanism是一个用来在序列数据中关注到特定元素的技术。Attention mechanism可以认为是一种计算权重的方法,使得网络可以根据输入数据不同部分的重要程度,调整相应的输出。换句话说,attention mechanism给输入加上了一层小型的神经网络,用来判断每个元素的重要程度。如图所示,就是一个例子,左边的是注意力机制,右边的是不带注意力机制的普通神经网络:
Attention mechanism可以看成是一种特征选择方法&#x