研究生课程:机器学习-第9章 概率图模型
《机器学习》课程笔记:第9章 概率图模型
第9章 概率图模型
有向图模型:贝叶斯网络
图结构:有向无环图
结点:一个或一组随机变量
边:随机变量之间的单向、直接影响
联合概率分布分解形式:,其中,
为
所有父结点构成的集合
条件独立性 D-分离准则(D-separation criterion):判断贝叶斯网络结点之间的条件独立性。
贝叶斯网络的全局马尔科夫性:给定结点集合A,B,C,若A到B中结点的所有无向路径都是被C阻塞的(blocked),则称A和B被C D-分离(D-separated),即A和B关于C条件独立。
若一条无向路径包含结点x满足以下条件之一,则称其是阻塞的:
- x 是tail-to-tail 或head-to-tail 结点,并且x包含在C中。
- x 是head-to-head 结点,并且x(及x 的任意后代均)不包含在C中。
贝叶斯网络的局部马尔科夫性:
- 给定某变量的父结点,则该变量条件独立于所有其他非其后代结点。
- 给定某变量的马尔可夫毯(父结点,子结点,子结点的父结点),则该变量条件独立于其他变量。
无向图模型:马尔可夫随机场
图结构:无向图
结点:一个或一组随机变量。
边:随机变量之间的相互依赖(非“因果关系”)。
团:对于图中的结点子集,若其中任意两个节点之间都有连边,则称该结点子集为一个团(clique)。
极大团:若在团中加入其他任意一个结点都不再形成团,则称该团为极大团(maximal clique)。
分解形式:
其中, 为团集合,
为团
对应的变量集合,
为定义在团
上的非负势函数,
是归一化因子
条件独立性:
马尔可夫随机场的全局马尔科夫性:给定结点集合A,B,C,若从A中的结点到B中结点必须经过C中的结点,则称A和B被C分离,即A和B关于C条件独立。
局部马尔科夫性:给定某变量的马尔可夫毯(邻接变量),则该变量条件独立于其他变量。
成对马尔科夫性:给定其他所有变量,两个非相邻变量条件独立。 if
学习与推断
基本定义
推断:已知联合概率分布 ,估计
,其中
是集合
的子集。
是问题变量,
是证据变量。
学习:从观测数据 中学习联合概率分布
,寻找最符合观测数据的概率图模型。
推断:已知联合概率分布 ,估计
,其中
枚举 : 假设 有
个变量,每个变量的取值个数的期望是
,则时间复杂度为
推断的核心问题 : 如何高效地计算边际分布
推断方法
精确推断:计算或
的精确值。
变量消去(variable elimination)
思路:利用图模型的紧凑概率分布形式来削减计算量。
优点:简单直观,代数上的消去对应图中结点的消去。
缺点:针对不同证据变量会造成大量冗余计算。
信念传播(belief propagation)
思路:将变量消去过程中产生的中间结果视为可复用的消息,避免重复计算。
消息传递仅在邻接变量之间发生,与边的方向性无关。
树结构:有向树=无向树
树结构上的消息传递:
消息计算公式:
边际分布:
二次扫描算法:
- 指定一个根结点,从所有叶结点开始向根节点传递消息,直到根结点收到所有邻接结点的消息。
- 从根结点开始向叶结点传递消息,直到所有叶结点均收到消息。
近似推断
近似推断:在较低的时间复杂度下获得原问题的近似解。通过采样一组服从特定分布的样本,来近似原始分布,适用范围更广,操作性更强。
前向采样(forward sampling)
思路:依据贝叶斯网络的(条件)概率直接采样。采样后,进行需要的概率统计。
缺点:对于小概率事件采样困难,可能经过很多次采样也无法获得足够多的样本
仅适用于贝叶斯网络,不适用于马尔可夫随机场。
吉布斯采样(Gibbs sampling)
思路:直接依照条件概率采样。
马尔可夫毯的性质:
优点:
- 直接从
采样,解决小概率事件采样难的问题
- 同时适用于贝叶斯网络和马尔可夫随机场
- 简单易推导,时间复杂度低。
实例模型
隐马尔可夫模型
隐马尔可夫模型是关于时序的概率模型,是最简单的动态贝叶斯网络模型。
状态变量 表示第
时刻的系统状态,观测变量
表示第
时刻的观测值。
观测变量仅依赖于当前时刻的状态变量,当前状态仅依赖于前一时刻的状态。状态集合 ,观测值集合
联合概率:
状态转移矩阵,其中
表示
时刻处于状态
的条件下,
时刻转移到状态
的概率
观测概率矩阵,其中
表示
时刻处于状态
的条件下观测到
的概率
初始状态概率向量 ,其中
表示系统初始状态为
的概率。
生成过程:
给定 ,生成观测序列
- 设置
,并根据初始状态概率
生成初始状态
- 根据
和观测概率矩阵B生成
- 根据
和状态转移矩阵A 生成
- 若
,则设置
,并转到第(2)步;否则,停止。
三个基本问题
- 概率计算问题:给定模型
和观测序列
,计算在模型
下观测
到的概率
。(评估模型与观测序列之间的匹配程度)
- 直接计算法:给定模型
和观测序列
,求使得
最大的状态观测序列
。(根据观测序列推测状态序列)
- 学习问题:给定观测序列
,调整模型
参数,使得该序列出现的概率
最大。(训练模型使其更好地描述观测序列)
条件随机场
条件随机场(Conditional Random Field) 是给定随机变量的条件下,随机变量
的马尔可夫随机场。
是
中的随机变量构成的无向图,图中每个变量在给定
的条件下都满足马尔可夫性:
线性链条件随机场(linear-chain CRF)是随机变量为线性链时的条件随机场
是观测序列。
是标记序列(或称状态序列 ),在给定
的条件下,
的条件分布
构成条件随机场。