研究生课程:机器学习-第8章 信息论模型
《机器学习》课程笔记:第8章 信息论模型
第8章 信息论模型
熵、最大熵
信息量(信息增益量)定义:,
信息量性质:概率越小的状态,信息量越大
信息熵定义:信息量在全部数值域上的概率平均值
- 离散熵:
- 微分熵:(微分熵不是严格意义的信息熵)
微分熵性质:平移不变、尺度变化,且可以是负值
当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的具有最大熵的概率分布推得。
最大微分熵问题:
已知均值和方差,高斯分布的微分熵最大
互信息
条件信息量:
条件熵:
- 给定,的条件熵:
- 给定,的条件熵:
联合熵:
- 联合概率密度:
- 联合信息量:
- 联合微分熵:
互信息:信息熵与条件熵的差:
互信息性质:非负性、对称性、不变性
相对熵是衡量两个分布的平均信息差异
相对熵和互信息之间的关系:
信息论优化模型
最大熵模型:最大化 , 求取类别后验概率分布 , 用于分类、预测等
最大互信息模型: 最大化 ; 最大化
最小互信息模型:最小化 ; 最小化 , 独立分析
研究生课程:机器学习-第8章 信息论模型
https://zhangzhao219.github.io/2022/10/05/UCAS/machine-learning/machine-learning-8/