VAE-《Auto-Encoding Variational Bayes》----Section2部分的有关理解

Section 2

1、论文中的i.i.d,表示的是独立同分布,是一种严谨的说法,通俗来看其实指的就是我们所经常见到的数据集中的特征,也可以理解为输入,如果是图结构的数据的话就是节点特征,这个独立同分布是进行建模的一个大前提。

2、思考:

      a、注意针对于论文中概率建模的理解,论文中使用概率机型建模,不代表建模的物体是有概率的,比如说 小明爱打篮球,这是一个客观存在,如果使用概率建模,表现的形式是小明爱打篮球的概率为p。为什么要用概率去建模呢?

原因在于概率可以模拟更多复杂的场景,因为要通过一个模型来得到许多各种各样的变量之间的关系是不容易的,如果要建模成确定的模型,那么必然需要使用规则,而规则本身是死的,不灵活。因此,使用概率建模的时候,我们只需要知道小明和篮球的概率相对于小明和其他运动的概率是最大的,那么就可以确定小明爱打篮球这一事实。当然,更复杂的情况是,小明既爱打篮球又爱打乒乓球,那么这个时候概率将会是一个均衡的状态,具体的不深入,有个初步的感受就可以了

       b、其次就是论文中的φ和θ,理论上来看二者对应的是都是x和z的联合分布,按理说应该是相同的,但是由于自编码器中使用的是神经网络的建模方式,只能向前传播,因此在训练的时候只能够分开计算,即使是使用变分方法也没有办法进行拆分。

3、

a、φ表示的是编码器部分的参数,θ表示的是解码器中的参数(后面有进一步的理解)
b、隐变量(latent variable),z如果在自编码器AE中其实指的就是由x经过encoder得到的变量,其实本质上就是embedding(x的表征,x就是样本,样本就是具体的客观存在,比如 human这个单词的embedding)

 

Section 2.1

论文中的pθ(z)和pθ(x|z)的参数是一样的,注意这两个式子都来源于x与z的联合分布pθ(x,z),前者属于联合分布的边际分布,后者属于条件分布,从理解上看后者也属于后验,前者属于先验。因此实际上模型建模的是联合分布,使用边际似然的原因我猜测是因为和对联合分布的最大似然估计是等效的,比如x1和z1如果是匹配的,那么其pθ(x1,z1)应当是概率最大的,要确定这个当然就是pθ(x1|z1)也要最大了,先验我猜测也是有这么一种转化,肯定是等效的。

section 2.2

①根据边际似然,论文中得到了

       

然而此时KL散度无法计算 因为从论文的思路中可以看到,θ建模的是对隐变量z的解码过程,在神经网络向前传播的特性下,它无法根据x给出z,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值