Information Theory(Divergence and variational distance)

Information Theory(Divergence and variational distance)

Divergence and Variational distance

Divergence(Relative entropy/discrimination) of X and Y定义为

Relative Entropy:之前提到过对某个随机事件的最小压缩长度记作

概率越小编码长度越大,平均编码长度最短

考虑数据传输模型,输入$X$输出Y,按照Y的概率对输入编码得到编码长度为

此时编码长度为

p/q对应输入/输出端在全概率空间的分布,和最优编码$\sum_x p(x)\log \frac{1}{p(x)}$之差为$D(p\parallel q)$

性质

错误的数据传输将会导致压缩效率下降

Mutual Information被定义为联合概率和边缘概率乘积之间的Divergence

之间的差异本质上反映了Y在多少程度上受到X影响

Refinement of Distribution

给定概率空间$\mathcal X$,在上面切分出k个不相交的子集$\mathcal U_i,i=1,2,\cdots,k$

定义$U_i$上的几率(Refinement)

划分是针对全概率空间而言的,下面的结论揭示了划分会让Divergence降低

$p_u/q_u$对应的是在划分空间上的离散分布,定义为

对应LHS写成

基于

这是基于$f(x) = x\log x$是凹函数,即

Q.E.D

这不满足数学上对distance的定义(不满足三角不等式/对称性)

Variational Distance

提出更符合数学直觉的概率距离定义

满足

实际上 $\sup E$满足

Pinsker’s inequality

揭示了Divergence和Variational distance之间的差别

按照Variational Distance定义切割

一定有

希望证明

定义$P_X(U) = p,P_Y(U) = q$,写成

得证

Conditional Divergence

给定条件z,是否会帮助减少两者的Divergence

定义Conditional Mutual Information

给定conditional,能否帮助减少两个分布之间的差异

Chain Rule for Divergence

对于两个二维分布$P(X_1,X_2),Q(X_1,X_2)$以及对应的边缘分布$P(X_1),Q(X_1)$

先看第一维的分布差异,再看条件分布的差异

Condition will not Decrease Divergence

给定先验条件不会让两个分布之间的距离变小(注意和条件熵的区别,条件熵只会让信息量减小)

如果Z和X/Y相互独立,则取等号

本站访客数人次