MINE:Mutual Information Neural Estimation
Mutual Information Neural Estimation
摘要
文章认为高维连续随机变量之间的互信息可以通过在神经网络上梯度下降优化得到。
文中提出了互信息估计器(Mutual Information Neural Estimator),它在维度和
样本大小上都是可伸缩的,可以通过反向传播训练的,并且具有很强的一致性。
文章提出了一些可以使用MINE来最小化或最大化互信息的
应用。作者应用MINE来改进对抗训练的生成模型。还使用MINE来实现信息瓶颈,将其应用到监督分类中:结果表明,在这些设置中,灵活性和性能有很大的改善。
背景知识补充1
与相关系数相比,互信息可以捕获非线性关系。
H
(
X
)
=
−
∑
x
p
(
x
)
l
o
g
(
p
(
x
)
)
=
−
E
x
[
l
o
g
(
p
(
x
)
)
]
H
(
X
∣
Z
)
=
−
∑
z
p
(
z
)
∑
x
p
(
x
∣
z
)
l
o
g
(
p
(
x
∣
z
)
)
I
(
X
,
Z
)
=
∑
x
∑
z
p
(
x
,
z
)
l
o
g
p
(
x
,
z
)
p
(
x
)
p
(
z
)
=
D
K
L
(
p
(
x
,
z
)
∣
∣
p
(
x
)
p
(
z
)
)
=
H
(
X
)
−
H
(
X
∣
Z
)
=
H
(
Z
)
−
H
(
Z
∣
X
)
\begin{align} H(X) &= -\sum_x p(x)log(p(x))\\ &= -\mathbb{E}_x[log(p(x))] \notag\\ H(X|Z) &= -\sum_z p(z)\sum_x p(x|z)log(p(x|z))\\ I(X, Z) &= \sum_x\sum_z p(x, z)log\frac{p(x, z)}{p(x)p(z)}\\ &= D_{KL}(p(x, z)||p(x)p(z)) \\ &= H(X)-H(X|Z)\\ &= H(Z)-H(Z|X) \end{align}
H(X)H(X∣Z)I(X,Z)=−x∑p(x)log(p(x))=−Ex[log(p(x))]=−z∑p(z)x∑p(x∣z)log(p(x∣z))=x∑z∑p(x,z)logp(x)p(z)p(x,z)=DKL(p(x,z)∣∣p(x)p(z))=H(X)−H(X∣Z)=H(Z)−H(Z∣X)
H
H
H是信息熵,
I
I
I是互信息。
KL散度的对偶(Dual)表示
Donsker-Varadhan represention
- 理论1(Q,P指分布,dQ,dP密度函数):
D K L ( P ∣ ∣ Q ) = sup T : Ω → R E P [ T ] − l o g ( E Q [ e T ] ) D_{KL}(P||Q)=\sup\limits_{T:\Omega\rightarrow R}\mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^T]) DKL(P∣∣Q)=T:Ω→RsupEP[T]−log(EQ[eT])
其中 T T T表示所有任意函数。
- 证明理论1:令
d
G
=
1
Z
e
T
d
Q
dG=\frac{1}{Z}e^TdQ
dG=Z1eTdQ,其中
Z
=
E
Q
[
e
T
]
Z=\mathbb{E}_Q[e^T]
Z=EQ[eT].
d G d Q = 1 Z e T E P [ E Q ] = E Q E P [ l o g d G d Q ] = E P [ T ] − l o g ( Z ) Δ : = D K L ( P ∣ ∣ Q ) − ( E P [ T ] − l o g ( Z ) ) = E P [ l o g d P d Q − l o g d G d Q ] = E P [ l o g d P d G ] = D K L ( P ∣ ∣ G ) ≥ 0 D K L ( P ∣ ∣ Q ) ≥ E P [ T ] − l o g ( E Q [ e T ] ) \begin{align} \frac{dG}{dQ}&=\frac{1}{Z}e^T\\ \mathbb{E}_P[\mathbb{E}_Q]&=\mathbb{E}_Q\\ \mathbb{E}_P[log\frac{dG}{dQ}]&=\mathbb{E}_P[T]-log(Z)\\ \Delta :&=D_{KL}(P||Q)-(\mathbb{E}_P[T]-log(Z))\\ &= \mathbb{E}_P\left[log\frac{dP}{dQ}-log\frac{dG}{dQ}\right]\\ &= \mathbb{E}_P\left[log \frac{dP}{dG}\right]=D_{KL}(P||G)\ge 0\\ D_{KL}(P||Q)&\ge \mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^T]) \end{align} dQdGEP[EQ]EP[logdQdG]Δ:DKL(P∣∣Q)=Z1eT=EQ=EP[T]−log(Z)=DKL(P∣∣Q)−(EP[T]−log(Z))=EP[logdQdP−logdQdG]=EP[logdGdP]=DKL(P∣∣G)≥0≥EP[T]−log(EQ[eT])
可以看到,当 G = = P G==P G==P时,取等号,即边界是贴近的, T ∗ = l o g d P d Q + C T^*=log\frac{dP}{dQ}+C T∗=logdQdP+C。
f f f-divergence representation
D K L ( P ∣ ∣ Q ) ≥ sup T ∈ F E P [ T ] − l o g ( E Q [ e T − 1 ] ) D_{KL}(P||Q)\ge\sup\limits_{T\in \mathcal{F}}\mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^{T-1}]) DKL(P∣∣Q)≥T∈FsupEP[T]−log(EQ[eT−1])
尽管对于足够大的族
F
\mathcal{F}
F,两种表示都可以逼近散度,但是Donsker-Varadhan 界限更强。
E
P
[
T
]
−
l
o
g
(
E
Q
[
e
T
]
)
≥
E
P
[
T
]
−
l
o
g
(
E
Q
[
e
T
−
1
]
)
\mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^{T}])\ge\mathbb{E}_P{[T]}-log(\mathbb{E}_Q[e^{T-1}])
EP[T]−log(EQ[eT])≥EP[T]−log(EQ[eT−1])
方法
使用神经网络参数化函数
T
T
T:
I
(
X
,
Z
)
≥
I
Θ
(
X
,
Z
)
I
Θ
(
X
,
Z
)
=
sup
θ
∈
Θ
E
P
X
Z
[
T
θ
]
−
l
o
g
(
E
P
X
P
Z
[
e
T
θ
]
)
I(X, Z)\ge I_\Theta(X, Z)\\ I_\Theta(X, Z)=\sup\limits_{\theta\in\Theta}\mathbb{E}_{P_{XZ}}{[T_\theta]}-log(\mathbb{E}_{P_{X}P_{Z}}[e^{T_\theta}])
I(X,Z)≥IΘ(X,Z)IΘ(X,Z)=θ∈ΘsupEPXZ[Tθ]−log(EPXPZ[eTθ])
训练神经网络尽量增大
I
Θ
I_\Theta
IΘ以逼近
I
(
X
,
Z
)
I(X, Z)
I(X,Z)。
定义MINE:
I
(
X
,
Z
)
^
n
=
sup
θ
∈
Θ
E
P
X
Z
n
[
T
θ
]
−
l
o
g
(
E
P
X
n
P
Z
n
[
e
T
θ
]
)
\widehat{I(X,Z)}_n=\sup\limits_{\theta\in\Theta}\mathbb{E}_{P^n_{XZ}}{[T_\theta]}-log(\mathbb{E}_{P^n_{X}P^n_{Z}}[e^{T_\theta}])
I(X,Z)
n=θ∈ΘsupEPXZn[Tθ]−log(EPXnPZn[eTθ])
其中
P
n
P^n
Pn表示独立同分布的n个样本的经验分布。
算法中提供了 MINE 实现的详细信息。类似的定义和算法也适用于 f − d i v e r g e n c e f-divergence f−divergence散度公式,称为 M I N E − f MINE-f MINE−f。它通常会导致互信息的估计量更宽松。然而,在小批量设置中,MINE的SGD梯度是有偏差的,不过可以调小学习率来调节偏差。
定义强一致性
如果对任意 ϵ ≥ 0 \epsilon\ge 0 ϵ≥0,都存在一个正整数 N N N和一个网络,使得:
∀ n ≥ N , ∣ I ( X , Z ) − I ( X , Z ) ^ ∣ ≤ ϵ \forall n\ge N,\quad |I(X,Z)-\widehat{I(X,Z)}|\le \epsilon ∀n≥N,∣I(X,Z)−I(X,Z) ∣≤ϵ
原文地址:https://blog.csdn.net/qq_36553572/article/details/140638413
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!