Perspective From Information Bottleneck Principle
信息瓶颈原理(Tishby, Pereira, and Bialek 2000)通过定义我们所谓的“好的”表示,为学习监督模型提供了一个有吸引力的信息理论观点。其原理是,最优模型通过压缩表示t(称为信息瓶颈)将尽可能多的信息从输入x传递到输出y。
表示t是随机定义的,最优随机映射
p
(
t
∣
x
)
p ( t | x )
p(t∣x)是通过利用马尔可夫链假设
y
→
x
→
t
y \rightarrow x \rightarrow t
y→x→t:
p
(
t
∣
x
)
=
arg
max
p
(
t
∣
x
)
,
p
(
y
∣
t
)
,
p
(
t
)
I
(
t
,
y
)
−
β
I
(
x
,
t
)
−
−
−
−
−
(
1
)
p(\mathbf{t} \mid \mathbf{x})=\underset{p(\mathbf{t} \mid \mathbf{x}), p(\mathbf{y} \mid \mathbf{t}), p(\mathbf{t})}{\arg \max } \mathrm{I}(\mathbf{t}, \mathbf{y})-\beta \mathrm{I}(\mathbf{x}, \mathbf{t})-----(1)
p(t∣x)=p(t∣x),p(y∣t),p(t)argmaxI(t,y)−βI(x,t)−−−−−(1)
其中
I
(
.
,
.
)
I(.,.)
I(.,.)是互信息,
β
\beta
β为拉格朗日乘数,表示压缩性
−
I
(
x
,
t
)
- I ( x , t )
−I(x,t)和t表示的信息量
I
(
t
,
y
)
I(t,y)
I(t,y)之间的权衡。我们采用信息瓶颈原则作为寻找简明而全面的解释的标准。我们的目标是学习一个解释器,它能生成关于黑箱决策的最大信息量的解释,同时压缩给定输入。
Proposed Method
VIBI,这是一种系统无关的解释方法,它为黑盒决策系统做出的决策提供了简短而全面的解释。为了实现这一点,我们优化了以下信息瓶颈目标。
p
(
z
∣
x
)
=
arg
smax
(
z
∣
x
)
,
p
(
y
∣
t
)
(
t
,
y
)
−
β
I
(
x
,
t
)
−
−
−
−
−
(
2
)
p ( z | x ) = \operatorname { a r g } \operatorname { s m a x } _ { ( z | x ) , p ( y | t ) } ( t , y ) - \beta I ( x , t )-----(2)
p(z∣x)=argsmax(z∣x),p(y∣t)(t,y)−βI(x,t)−−−−−(2)
I
(
t
,
y
)
I ( t , y )
I(t,y)表示为解释黑箱输出y而保留的信息的充分性,
−
I
(
x
,
t
)
-I(x,t)
−I(x,t)表示解释t的简洁性,
β
\beta
β为权衡两者之间的拉格朗日乘数。我们的信息瓶颈目标函数(2)与(Tishby, Pereira, and Bialek 2000)的主要区别如下: 后者的目标是识别t表示的信息瓶颈的随机映射,而我们的目标是识别执行认知块实例选择的z的随机映射,并将信息瓶颈定义为z和输入x的函数。
如图1A所示,VIBI由两部分组成: 解释器和近似器,每一个都是采用深度神经网络建模。解释器选择给定实例的一组k个键的认知块,而近似器使用所选的键作为输入来模拟黑盒系统的行为。k控制z的稀疏程度。具体来说,解释器
p
(
z
∣
x
;
θ
e
)
p ( z | x ; \theta _ { e } )
p(z∣x;θe)从输入x到其归属分数
p
j
(
x
)
=
p
(
z
j
∣
x
)
p _ { j } ( x ) = p ( z _ { j } | x )
pj(x)=p(zj∣x)的映射,其中j为第j个认知块,
z
j
z _ { j }
zj为是否选择该块的二元指标。归因得分表示每个认知块被选择的概率。为了选择前k个认知块作为解释,从类别概率
p
j
(
x
)
=
p
(
z
j
∣
x
)
p _ { j } ( x ) = p ( z _ { j } | x )
pj(x)=p(zj∣x)的分类分布中抽样k-hot向量z,当
z
j
=
1
z _ { j }= 1
zj=1 时选择第j个认知块。具体来说,解释t的定义如下:
t
i
=
(
x
⊙
z
)
i
=
x
i
×
z
j
t _ { i } = ( x \odot z ) _ { i } = x _ { i } \times z _ { j }
ti=(x⊙z)i=xi×zj
其中j表示一个认知块,每个认知块对应多个行特征i。采用另一种深度神经网络
p
(
y
∣
t
;
θ
a
)
p ( y | t ; \theta _ { a } )
p(y∣t;θa),近似器模仿了黑箱决策系统。它将t作为输入,并返回一个近似于实例x的黑箱输出的输出。
θ
a
\theta _ { a }
θa和
θ
e
\theta _ { e }
θe表示神经网络的权值参数。解释者和近似者被联合训练,通过最小化成本函数来支持简明的解释,同时强制解释本身就足以进行准确的预测。
为了实现压缩,除了鼓励解释和输入之间的小MI,我们还鼓励选择的认知块的数量较小,即鼓励z是稀疏的。注意MI和稀疏性是实现压缩的两种互补方法。MI旨在减少解释中的语义冗余,稀疏性无法实现这一目标。举个例子,如果一篇影评中经常出现“great”这个词,那么可以用两种解释来判断这篇影评的情绪:“great, great”和“great, thought-provoking”。它们具有相同的稀疏程度(k = 2),但前者具有语义冗余。在这种情况下,MI有助于选择一个更好的解释。第一种解释带有更大的MI。第二种解释的MI更小,因此更简洁,更可取。
The variational bound 变分约束
根据当前形式MIs的 I ( t , y ) I(t,y) I(t,y)和 I ( x , t ) I(x,t) I(x,t)的信息瓶颈目标是棘手的。我们通过使用信息瓶颈目标的变分近似来解决这个问题。
Variational bound for
I
(
x
;
t
)
I(x; t)
I(x;t): 我们首先证明
I
(
x
,
t
)
≤
I
(
x
,
z
)
+
C
I(x,t)≤I(x,z)+C
I(x,t)≤I(x,z)+C,其中C为常数,并使用
−
I
(
x
,
z
)
−
C
-I(x,z)-C
−I(x,z)−C作为
−
I
(
x
,
t
)
-I(x,t)
−I(x,t)的下边界。结果,我们得到:
I
(
x
,
t
)
≤
I
(
x
,
z
)
+
C
≤
E
(
x
,
z
)
∼
p
(
x
,
z
)
[
log
p
(
z
∣
x
)
r
(
z
)
]
+
C
=
E
x
∼
p
(
x
)
D
K
L
(
p
(
z
∣
x
)
,
r
(
z
)
)
+
C
−
−
−
(
3
)
I ( x , t ) \leq I ( x , z ) + C \leq \mathbb{E}_{ ( x , z ) \sim p ( x , z ) }[ \log \frac { p ( z | x ) } { r ( z ) } ] + C = \operatorname {\mathbb{E}} _ { x \sim p ( x ) } D _ { K L } ( p ( z | x ) , r ( z ) ) + C---(3)
I(x,t)≤I(x,z)+C≤E(x,z)∼p(x,z)[logr(z)p(z∣x)]+C=Ex∼p(x)DKL(p(z∣x),r(z))+C−−−(3)
注意,适当地选择
r
(
z
)
r(z)
r(z)和
p
(
z
∣
x
)
p(z|x)
p(z∣x),我们可以假设 Kullback-Leibler 散度
D
K
L
(
p
(
z
∣
x
)
,
r
(
z
)
)
D _ { K L } ( p ( z | x ) , r ( z ) )
DKL(p(z∣x),r(z))具有解析形式。
Variational bound for
I
(
t
,
y
)
I(t,y)
I(t,y):我们得到了
I
(
t
,
y
)
I(t,y)
I(t,y)通过使用
q
(
y
∣
t
)
q(y|t)
q(y∣t)来近似
p
(
y
∣
t
)
p(y|t)
p(y∣t), p(y|t)作为黑箱系统的近似器。结果,我们得到:
I
(
t
,
y
)
≥
[
E
(
t
,
y
)
∼
p
(
t
,
y
)
[
log
q
(
y
∣
t
)
]
=
E
x
∼
p
(
x
)
E
y
∣
x
∼
p
(
y
∣
x
)
E
t
∣
x
∼
p
(
t
∣
x
)
[
log
q
(
y
∣
t
)
]
−
−
−
−
−
−
−
(
4
)
I ( t , y ) \geq [ \mathbb{E} _ { ( t , y ) \sim p ( t , y )} [ \log q ( y | t ) ] =\mathbb{E}_{\mathbf{x} \sim p(\mathbf{x})} \mathbb{E}_{\mathbf{y} \mid \mathbf{x} \sim p(\mathbf{y} \mid \mathbf{x})} \mathbb{E}_{\mathbf{t} \mid \mathbf{x} \sim p(\mathbf{t} \mid \mathbf{x})}[\log q(\mathbf{y} \mid \mathbf{t})]-------(4)
I(t,y)≥[E(t,y)∼p(t,y)[logq(y∣t)]=Ex∼p(x)Ey∣x∼p(y∣x)Et∣x∼p(t∣x)[logq(y∣t)]−−−−−−−(4)
其中
p
(
t
∣
x
,
y
)
=
p
(
t
∣
x
)
p ( t | x , y ) = p ( t | x )
p(t∣x,y)=p(t∣x)根据马尔科夫链假设
y
↔
x
↔
t
\mathbf{y} \leftrightarrow \mathbf{x} \leftrightarrow \mathbf{t}
y↔x↔t。结合式(3)和式(4),得到变分界:
I
(
t
,
y
)
−
β
I
(
x
,
t
)
≥
E
x
∼
p
(
x
)
E
y
∣
x
∼
p
(
y
∣
x
)
E
t
∣
x
∼
p
(
t
∣
x
)
[
log
q
(
y
∣
t
)
]
−
β
E
x
∼
p
(
x
)
D
K
L
(
p
(
z
∣
x
)
,
r
(
z
)
)
+
C
∗
−
−
−
−
−
−
−
(
5
)
\begin{aligned} \mathrm{I}(\mathbf{t}, \mathbf{y}) &-\beta \mathrm{I}(\mathbf{x}, \mathbf{t}) \\ \geq & \mathbb{E}_{\mathbf{x} \sim p(\mathbf{x})} \mathbb{E}_{\mathbf{y} \mid \mathbf{x} \sim p(\mathbf{y} \mid \mathbf{x})} \mathbb{E}_{\mathbf{t} \mid \mathbf{x} \sim p(\mathbf{t} \mid \mathbf{x})}[\log q(\mathbf{y} \mid \mathbf{t})] \\ &-\beta \mathbb{E}_{\mathbf{x} \sim p(\mathbf{x})} D_{\mathrm{KL}}(p(\mathbf{z} \mid \mathbf{x}), r(\mathbf{z}))+C^{*} \end{aligned} -------(5)
I(t,y)≥−βI(x,t)Ex∼p(x)Ey∣x∼p(y∣x)Et∣x∼p(t∣x)[logq(y∣t)]−βEx∼p(x)DKL(p(z∣x),r(z))+C∗−−−−−−−(5)
其中,
C
∗
=
−
C
β
C ^ { * } = - C \beta
C∗=−Cβ可以忽略,因为它与优化过程无关。我们用经验数据分布来近似
p
(
x
,
y
)
=
p
(
x
)
p
(
y
∣
x
)
p ( x , y ) = p ( x ) p ( y | x )
p(x,y)=p(x)p(y∣x) 和
p
(
x
)
p ( x )
p(x)。
Continuous relaxation and reparameterization. 连续的松弛和重新参数化。
边界(5)的当前形式仍然难以处理,因为我们需要对特征子集的
(
d
k
)
\left(\begin{array}{l}d \\ k\end{array}\right)
(dk)组合求和。这是因为我们从d个认知块中抽取了前k个,假设每个块都是从类别概率
p
j
(
x
)
=
p
(
z
j
∣
x
)
p_{j}(\mathbf{x})=p\left(\mathrm{z}_{j} \mid \mathbf{x}\right)
pj(x)=p(zj∣x)的分类分布中抽取的。为了避免这种情况,我们使用了广义Gumbel-softmax技巧。这是一种众所周知的技术,用于用可微的Gumbel-softmax样本逼近不可微的分类子集抽样。步骤如下:
首先,我们对一个认知块独立采样k次。每一次,随机扰动
e
j
e_{j}
ej 加到每个认知块
l
o
g
p
j
(
x
)
log p_{j}(x)
logpj(x) 的log概率中。由此,具体随机向量
c
=
(
c
1
,
⋯
,
c
d
)
c = ( c _ { 1 } , \cdots , c _ { d } )
c=(c1,⋯,cd) 作为一个连续的、可微的argmax近似定义为:
g
j
=
−
log
(
−
log
e
j
)
where
e
j
∼
U
(
0
,
1
)
c
j
=
exp
(
(
g
j
+
log
p
j
(
x
)
)
/
τ
)
∑
j
=
1
d
exp
(
(
g
j
+
log
p
j
(
x
)
)
/
τ
)
\begin{aligned} \mathrm{g}_{j} &=-\log \left(-\log \mathrm{e}_{j}\right) \quad \text { where } \mathrm{e}_{j} \sim U(0,1) \\ \mathrm{c}_{j} &=\frac{\exp \left(\left(\mathrm{g}_{j}+\log p_{j}(\mathbf{x})\right) / \tau\right)}{\sum_{j=1}^{d} \exp \left(\left(\mathrm{g}_{j}+\log p_{j}(\mathbf{x})\right) / \tau\right)} \end{aligned}
gjcj=−log(−logej) where ej∼U(0,1)=∑j=1dexp((gj+logpj(x))/τ)exp((gj+logpj(x))/τ)
其中
τ
\tau
τ 是Gumbel-Softmax分布温度的调优参数。接下来,我们定义一个连续松弛随机向量
z
∗
=
[
z
1
∗
,
⋯
,
z
d
∗
]
⊤
\mathbf{z}^{*}=\left[\mathrm{z}_{1}^{*}, \cdots, \mathrm{z}_{d}^{*}\right]^{\top}
z∗=[z1∗,⋯,zd∗]⊤为独立采样的混凝土向量的元素最大值
c
(
l
)
c ^ { ( l ) }
c(l),其中
l
=
1
,
⋯
,
k
:
l = 1 , \cdots , k :
l=1,⋯,k:
z
j
∗
=
max
l
c
j
(
l
)
for
l
=
1
,
⋯
,
k
\mathrm{z}_{j}^{*}=\max _{l} \mathrm{c}_{j}^{(l)} \text { for } l=1, \cdots, k
zj∗=lmaxcj(l) for l=1,⋯,k
利用这个采样方案,我们逼近k-hot随机向量,并对变分界(5)进行连续逼近。这个技巧允许使用标准的反向传播通过重新参数化来计算参数的梯度。通过把所有东西放在一起,我们得到:
1
N
L
∑
n
N
∑
l
L
[
log
q
(
y
(
n
)
∣
x
(
n
)
⊙
f
(
e
(
n
)
(
l
)
,
x
(
n
)
)
)
−
β
D
K
L
(
p
(
z
(
n
)
∗
∣
x
(
n
)
)
,
r
(
z
(
n
)
∗
)
)
]
\begin{aligned} \frac{1}{N L} \sum_{n}^{N} \sum_{l}^{L} &\left[\log q\left(\boldsymbol{y}_{(n)} \mid \mathbf{x}_{(n)} \odot f\left(\mathbf{e}_{(n)}^{(l)}, \mathbf{x}_{(n)}\right)\right)\right.\\ &\left.-\beta D_{\mathrm{KL}}\left(p\left(\mathbf{z}_{(n)}^{*} \mid \mathbf{x}_{(n)}\right), r\left(\mathbf{z}_{(n)}^{*}\right)\right)\right] \end{aligned}
NL1n∑Nl∑L[logq(y(n)∣x(n)⊙f(e(n)(l),x(n)))−βDKL(p(z(n)∗∣x(n)),r(z(n)∗))]
其中
N
N
N 是样本数,
n
n
n 表示第
n
n
n 个样本,
f
(
e
(
n
)
(
l
)
,
x
(
n
)
)
=
z
(
n
)
∗
f\left(\mathbf{e}_{(n)}^{(l)}, \mathbf{x}_{(n)}\right)=\mathbf{z}_{(n)}^{*}
f(e(n)(l),x(n))=z(n)∗,
q
(
y
(
n
)
∣
x
(
n
)
⊙
z
(
n
)
∗
)
q\left(\boldsymbol{y}_{(n)} \mid \mathbf{x}_{(n)}\right.\left. \odot \mathbf{z}_{(n)}^{*}\right)
q(y(n)∣x(n)⊙z(n)∗)是黑匣子系统的近似值,并且
−
D
K
L
(
p
(
z
∗
∣
x
(
n
)
)
,
r
(
z
∗
)
)
-D_{\mathrm{KL}}\left(p\left(\mathbf{z}^{*} \mid \mathbf{x}_{(n)}\right), r\left(\mathbf{z}^{*}\right)\right)
−DKL(p(z∗∣x(n)),r(z∗))表示解释的紧凑性。一旦我们学习了模型,每个认知块的归因得分
p
j
(
x
)
p_{j}(x)
pj(x)被用来选择关于输入x的最大压缩和关于该输入的黑箱决策y的最大信息的前k个关键认知块。