12. 信息熵

12.1. 信息熵

信息熵:

\[\begin{split}H(X) &=\ E[I(X)] = E[-\log (P(X))] \\ &=\ - \sum_{i=1}^n P(x_i) \log P(x_i) \ \text{比特/信源符号} \\ & \geqslant 0\end{split}\]

条件熵(给定随机变量 \(Y\) ,对随机变量 \(X\) 仍存在的平均不确定性):

\[H(X|Y) = - \sum_{i,j} p(x_i, y_j) \log \frac{p(x_i, y_j)}{p(y_j)}\]

Differential Entropy(连续状态下的熵):

\[\begin{split}h(f) &=\ E[- \log f(x)] \\ &=\ - \int f(x) \log f(x) dx\end{split}\]

其中 \(f(x)\) 是概率密度函数(Probability Density Function)。

12.2. 互信息

../_images/12_mutulInfo.png
\[\begin{split}I(X, Y) &=\ \sum_i \sum_j p(x_i, y_j) \log \frac{p(x_i|y_j)}{p(x_i)} \\ &=\ H(X) - H(X|Y) \\ &=\ H(Y) - H(Y|X) \\ &=\ H(X) + H(Y) - H(X,Y) \\ &=\ H(X, Y) - H(X|Y) - H(Y|X) \\ &=\ I(Y, X) \\ & \geqslant 0\end{split}\]

互信息(Mutual Information,MI) \(I(X, Y)\) 总体上表示每传递一个符号所传递的平均信息量,衡量了两个随机变量的独立性。

对于连续变量,将 \(H(X)\) 替换为 \(h(f)\)

12.3. KL 散度

KL 散度(Kullback–Leibler Divergence 或 Relative Entropy),衡量了两种概率分布的差异性,KL 散度为 0 表示同分布。

\[\begin{split}D_{KL}(P \| Q) &=\ - \sum_x P(x) \log \frac{Q(x)}{P(x)} & & \text{[离散]} \\ &=\ - \int p(x) \log \frac{q(x)}{p(x)} dx & & \text{[连续]} \\ & \geqslant 0 \\\end{split}\]
\[I(X, Y) =\ D_{KL} ( p(X, Y)\ \| \ p(X)p(Y) )\]

12.4. 交叉熵

交叉熵(Cross Entropy)在信息论中的含义:基于相同事件测度的两个概率分布 \(p\) (“真实”分布)和 \(q\) (“估测”分布),当基于概率分布 \(q\) 进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。

定义:

\[H(p, q) = E_p [- \log q] = H(p) + D_{KL}(p \| q)\]

离散分布:

\[H(p, q) = - \sum_x p(x) \log q(x)\]

连续分布(假设 \(p\)\(q\) 在测度 \(r\) 上是绝对连续的, \(P\)\(Q\) 分别为 \(p\)\(q\) 在测度 \(r\) 上的概率密度函数):

\[H(p, q) = - \int P(x) \log Q(x) dr(x)\]

最小化 KL 散度就是最小化分布之间的交叉熵。

12.5. Jensen’s inequality

../_images/12_jensen.png
凸函数

实数域函数 \(f\) 是凸函数,满足 \(f^{\prime\prime} \geqslant 0\) (高维对应 Hessian Matrix \(H \geqslant 0\) )。

Jensen 不等式

凸函数 \(f\) ,随机变量 \(X\) ,则 \(E[f(X)] \geqslant f(E[X])\)\(E[f(X)] = f(E[X])\) 当且仅当 \(X \equiv E[X]\) (常数)。

应用

对任意

\[\begin{split}f(x) = - \log x,\ x > 0 \\ \sum_i p_i = 1,\ 0 \leqslant p_i \leqslant 1 \\ \sum_i q_i = 1,\ 0 \leqslant q_i \leqslant 1 \\\end{split}\]

\[\sum_i p_i f(x_i) \geqslant f(\sum_i p_i x_i),\]

\[\sum_i p_i \log x_i \leqslant \log (\sum_i p_i x_i).\]

\[x_i = \frac{q_i}{p_i} > 0,\]

\[\sum_i p_i \log q_i - \sum_i p_i \log p_i \leqslant \log (\sum_i p_i \frac{q_i}{p_i}) =\ 0,\]

\[- \sum_i p_i \log p_i \leqslant - \sum_i p_i \log q_i.\]

12.6. 参考资料

  1. Entropy

  1. Mutual information

  1. KL divergence

  1. Cross entropy

  1. Jensen’s inequality