研究生课程:机器学习-第8章 信息论模型

《机器学习》课程笔记:第8章 信息论模型

第8章 信息论模型

熵、最大熵

信息量(信息增益量)定义:

信息量性质:概率越小的状态,信息量越大

信息熵定义:信息量在全部数值域上的概率平均值

  • 离散熵:
  • 微分熵:(微分熵不是严格意义的信息熵)

微分熵性质:平移不变、尺度变化,且可以是负值

当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的具有最大熵的概率分布推得。

最大微分熵问题:

已知均值和方差,高斯分布的微分熵最大

互信息

条件信息量:

条件熵:

  • 给定的条件熵:
  • 给定的条件熵:

联合熵:

  • 联合概率密度:
  • 联合信息量:
  • 联合微分熵:

互信息:信息熵与条件熵的差:

互信息性质:非负性、对称性、不变性

相对熵是衡量两个分布的平均信息差异

相对熵和互信息之间的关系:

信息论优化模型

最大熵模型:最大化 , 求取类别后验概率分布 , 用于分类、预测等

最大互信息模型: 最大化 ; 最大化

最小互信息模型:最小化 ; 最小化 , 独立分析


研究生课程:机器学习-第8章 信息论模型
https://zhangzhao219.github.io/2022/10/05/UCAS/machine-learning/machine-learning-8/
作者
Zhang Zhao
发布于
2022年10月5日
许可协议