Information Theory(Divergence and variational distance)
Information Theory(Divergence and variational distance)
Divergence and Variational distance
Divergence(Relative entropy/discrimination) of X and Y定义为
Relative Entropy:之前提到过对某个随机事件的最小压缩长度记作
概率越小编码长度越大,平均编码长度最短
考虑数据传输模型,输入$X$输出Y,按照Y的概率对输入编码得到编码长度为
此时编码长度为
p/q对应输入/输出端在全概率空间的分布,和最优编码$\sum_x p(x)\log \frac{1}{p(x)}$之差为$D(p\parallel q)$
性质
错误的数据传输将会导致压缩效率下降
Mutual Information被定义为联合概率和边缘概率乘积之间的Divergence
之间的差异本质上反映了Y在多少程度上受到X影响
Refinement of Distribution
给定概率空间$\mathcal X$,在上面切分出k个不相交的子集$\mathcal U_i,i=1,2,\cdots,k$
定义$U_i$上的几率(Refinement)
划分是针对全概率空间而言的,下面的结论揭示了划分会让Divergence降低
$p_u/q_u$对应的是在划分空间上的离散分布,定义为
对应LHS写成
基于
这是基于$f(x) = x\log x$是凹函数,即
Q.E.D
这不满足数学上对distance的定义(不满足三角不等式/对称性)
Variational Distance
提出更符合数学直觉的概率距离定义
满足
实际上 $\sup E$满足
Pinsker’s inequality
揭示了Divergence和Variational distance之间的差别
按照Variational Distance定义切割
一定有
希望证明
定义$P_X(U) = p,P_Y(U) = q$,写成
得证
Conditional Divergence
给定条件z,是否会帮助减少两者的Divergence
定义Conditional Mutual Information
给定conditional,能否帮助减少两个分布之间的差异
Chain Rule for Divergence
对于两个二维分布$P(X_1,X_2),Q(X_1,X_2)$以及对应的边缘分布$P(X_1),Q(X_1)$
先看第一维的分布差异,再看条件分布的差异
Condition will not Decrease Divergence
给定先验条件不会让两个分布之间的距离变小(注意和条件熵的区别,条件熵只会让信息量减小)
如果Z和X/Y相互独立,则取等号