写点什么

平均互信息与条件熵

作者:timerring
  • 2023-04-07
    山东
  • 本文字数:2869 字

    阅读完需:约 9 分钟

本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown 版本已归档至【Github 仓库:https://github.com/timerring/information-theory 】或者公众号【AIShareLab】回复 信息论 获取。

平均互信息

平均互信息定义



  1. Y 末知, 的不确定度为

  2. Y 已知, 的不确定度变为


互信息 = 先验不确定性 - 后验不确定性 = 不确定性减少的量


通信系统中若发端的符号为 X 收端的符号为 Y。如果是 一一对应信道, 接收到 Y 后对 X 的不确定性将完全消除: H(X|Y) = 0,一般情况 H(X|Y) < H(X), 即了解 Y 后对 X 的不确定度将减少。


通过信道传输消除了一些不确定性, 获得了一定的信息, 故






由上,平均互信息具有互易性:



例 假设一条电线上串联了 8 个灯泡 如图, 这 8 个灯泡损坏的概率相等 , 现 假设只有一个灯泡已损坏, 致使串联灯泡都不能点亮。

未测量前, 8 个灯泡都有可能损坏, 它们损坏的先验概率: , 这时存在的不确定性

$$\mathrm{I}(\mathrm{x}{i})=\log \frac{1}{\mathrm{p}(\mathrm{x}{i})}=\log _{2} 8=3 \text { bit }$$

测量 1 次后, 可知 4 个灯泡是好的, 另 4 个灯泡中有一个是坏的,这时后验概率 ,尚存在的不确定性:

$$\mathrm{I}(\mathrm{x}{i} \mid \mathrm{y})=\log \frac{1}{\mathrm{p}(\mathrm{x}{i} \mid \mathrm{y})}=\log _{2} 4=2 \text { bit }$$

所获得的信息量就是测量前后不确定性减少的量, 测量 1 次获得的信息量:

平均互信息与各类熵的关系

\begin{array}{c}I(X ; Y)=H(X)-H(X \mid Y)=H(Y)-H(Y \mid X) \=H(X)+H(Y)-H(X Y) \H(X Y)=H(X)+H(Y \mid X)=H(Y)+H(X \mid Y) \H(X Y) \leq H(X)+H(Y)\end{array}


熵只是平均不确定性的描述,不确定性的消除两熵之差才等于接收端所获得的信息量;


获得的信息量不应该和不确定性混为一谈。


I(X;Y)表示 X 和 Y 之间的密切程度,越大,越密切。


下表有 12 条训练数据,记录了女性的择偶标准,每条数据包含了 4 个特征。这 4 个特征对结果的体现程度是不一样的。如何度量这种不同? 用平均互信息



4 个特征和结果的概率分布分别为


\begin{array}{c}{\left[\begin{array}{l}X_{1} \P\end{array}\right]=\left[\begin{array}{ccc}\text { 帅 } & \text { 不帅 } \2 / 3 & 1 / 3\end{array}\right]\left[\begin{array}{c}X_{2} \P\end{array}\right]=\left[\begin{array}{ccc}\text { 好 } & \text { 不好 } & \text { 非常好 } \1 / 2 & 1 / 3 & 1 / 6\end{array}\right]} \{\left[\begin{array}{c}X_{3} \P\end{array}\right]=\left[\begin{array}{ccc}\text { 矮 } & \text { 高 } & \text { 中 } \7 / 12 & 1 / 4 & 1 / 6\end{array}\right] \quad\left[\begin{array}{c}X_{4} \P\end{array}\right]=\left[\begin{array}{ll}\text { 上进 } & \text { 不上进 } \2 / 3 & 1 / 3\end{array}\right]} \{\left[\begin{array}{l}Y \P\end{array}\right]=\left[\begin{array}{cc}\text { 嫁 } & \text { 不嫁 } \1 / 2 & 1 / 2\end{array}\right]}\end{array}


特征和结果之间的条件概率为 :



\begin{array}{l}P\left(Y \mid X_{2}\right)=\left[\begin{array}{cc}1 / 2 & 1 / 2 \1 / 4 & 3 / 4 \1 & 0\end{array}\right] \quad P\left(Y \mid X_{3}\right)=\left[\begin{array}{cc}1 / 7 & 6 / 7 \1 & 0 \1 & 0\end{array}\right] \P\left(Y \mid X_{4}\right)=\left[\begin{array}{ll}5 / 8 & 3 / 8 \1 / 4 & 3 / 4\end{array}\right] \\end{array}


从而联合概率为 :



得条件熵:


平均互信息为: .


结论:身高是最主要特征, 其次是性格。只保留这两项即可。

维拉图


\begin{array}{l}I(X ; Y)=H(X)-H(X \mid Y) \=H(Y)-H(Y \mid X) \=H(X)+H(Y)-H(X Y) \H(X Y)=H(X)+H(Y \mid X) \=H(Y)+H(X \mid Y) \H(X Y) \leq H(X)+H(Y) \H(X) \geq H(X \mid Y) \H(Y) \geq H(Y \mid X) \\end{array}


若信道是无噪一一对应信道,信道传递概率:


\begin{array}{c}p(y \mid x)=\left{\begin{array}{ll}0 & y \neq f(x) \1 & y=f(x)\end{array}\right. \p(x \mid y)=\frac{p(x y)}{p(y)}=\frac{p(x) p(y \mid x)}{\sum p(x) p(y \mid x)}=\left{\begin{array}{ll}0 & y \neq f(x) \1 & y=f(x)\end{array}\right.\end{array}


计算得:





若信道输入端 与输出端 完全统计独立


\begin{array}{cc}p(y \mid x)=p(y) & p(x \mid y)=p(x) \H(X \mid Y)=H(X) ; & H(Y \mid X)=H(Y)\end{array}


则:


条件熵

: 信道疑义度,损失熵


  • 信源符号通过有噪信道传输后所引起的信息量的损失。


信源 X 的熵等于接收到的信息量加上损失掉的信息量。


: 噪声熵,散布熵


  • 它反映了信道中噪声源的不确定性。


输出端信源 Y 的熵 等于接收到关于 X 的信息量 加上 ,这完全是由于信道中噪声引起的。


平均互信息的性质

非负性:


互易性:


凸函数性:


  • I(X ; Y) 为概率分布 p(x) 的上凸函数

  • 对于固定的概率分布 p(x), I(X ; Y) 为条件概率 的 下凸函数


极值性:


若信道是下图所示的无躁一一对应信道,则有

\begin{array}{l}H(X \mid Y)=0 \H(Y \mid X)=0 \I(X ; Y)=H(X) \I(X ; Y)=H(Y)\end{array}


参考文献:


  1. Proakis, John G., et al. Communication systems engineering. Vol. 2. New Jersey: Prentice Hall, 1994.

  2. Proakis, John G., et al. SOLUTIONS MANUAL Communication Systems Engineering. Vol. 2. New Jersey: Prentice Hall, 1994.

  3. 周炯槃. 通信原理(第 3 版)[M]. 北京:北京邮电大学出版社, 2008.

  4. 樊昌信, 曹丽娜. 通信原理(第 7 版) [M]. 北京:国防工业出版社, 2012.

发布于: 刚刚阅读数: 3
用户头像

timerring

关注

公众号【AIShareLab】 2022-07-14 加入

他日若遂凌云志

评论

发布
暂无评论
平均互信息与条件熵_信息论_timerring_InfoQ写作社区