Element of Information(Chapter 2)
Element of Information Theory(Entropy/Relative Entropy and Mutual Information)
Entropy/Joint Entropy and Conditional Entropy
Entropy定义为概率倒数对数的的期望
Joint Entropy需要同时对两个变量求期望
Conditional Entropy需要遍历所有的先验条件
显然有
下面的推论表明了Conditional Entropy具有的拆分性质
不具备备**交换性,即
但是满足
Relative Entropy/Mutual Information
相对熵被用于刻画两个概率分布$p(x),q(x)$之间的距离,写成
除了分布之间的距离,我们还希望讨论两个变量之间的相关性,随机变量独立意味着存在
因此采用互信息定义变量的相关程度
互信息可以拆分成
链式法则分解
条件互信息表明了给定先验条件下两个随机变量的相关程度
Mutual Information也遵循类似的链式法则,表明了高维随机变量的互信息如何拆分成每一位随机变量的条件互信息
证明
定义条件概率的之间的距离
下面的定理表明了联合概率距离/边缘概率距离/条件概率距离之间的关系
证明
Q.E.D
Convex函数的Jensen不等式
对于满足Strict Convex的函数
等号仅仅在$\lambda$为0或1时成立
凸函数的期望性质
对于凸函数f和随机变量X,满足
这个性质和X分布无关
概率距离的非负性
给定概率分布$p,q$,一定有
令
写成
Q.E.D
互信息的非负性
添加一个额外的随机变量总不能减少对当前变量的估计的准确度
显然有
当且仅当
时取=号,因此显然有
条件熵不增
Log Sum inequality
给定非负实数$a_1,a_2,\cdots,a_n$和$b_1,b_2,\cdots,b_n$,满足
当且仅当
取等号,证明
Proof,定义
因此f(t)是strict convex的,满足
令
有
特殊地,如果有$\sum_i a_i = \sum_i b_i = 1$,则
相对熵的是凸的
我们称相对熵$D(p\parallel q)$是凸的,意味着对于两个概率对$(p_1,q_1),(p_2,q_2)$和实数$\lambda\in (0,1)$
熵是凹函数
定义样本空间$\mathcal X$上的均匀分布U,KL散度写成
给定同一个样本空间$\mathcal X$上的随机变量$X_1,X_2$,满足概率分布$p_1,p_2$,定义落在[1,2]上的随机变量$\theta$,满足
随机变量Z定义为
Z的分布为$\lambda p_1 + (1-\lambda)p_2$
根据相对熵不减,有
互信息的凹凸性
关于互信息
的凹凸性,有如下结论
- 对于固定的概率$p(x)$,$I(X;Y)$是凹函数(仅仅改变先验概率p(y|x)而固定边缘分布p(x))
- 对于固定的概率$p(y|x)$,$I(X;Y)$是凸函数
证明结论2
$p(y|x)$是固定的,意味着第二项是$p(x)$的线性组合($H(Y|X=x)$是常数),H(Y)是凹函数
证明结论1,需要说明对于两个条件概率
和它们的线性组合
两边同时乘以p(x),得到