研究生课程:模式识别与机器学习-第5章 统计机器学习
《模式识别与机器学习》课程笔记:第5章 统计机器学习
第5章 统计机器学习
机器学习简介
桑克(R.Shank)“一台计算机若不会学习,就不能说它具有智能。”
机器学习更强调面向算法,而统计学更偏重于面向模型。换而言之,机器学习强调算法的结果要好,所以机器学习很关注损失函数。而统计学要先扔出来一大堆模型假设,然后站在模型上面通过严格的数学推导做出结果。
统计机器学习:是基于数据构建概率统计模型并运用模型对数据进行预测分析的一门学科。
机器学习的学习过程:
- 经验(E):训练数据
- 模型(T):需要学习的目标函数
- 学习算法:怎么样从经验中推断出模型
- 评价(P):测试数据
机器学习的特点:
- 数据大量且廉价,知识昂贵而稀少
- 数据产生过程的细节是未知的,但是数据产生的过程不是完全随机的。
- 通过利用数据中的某些模式或规律从数据中学习模型:反推数据生成路径。
- 模型通常不是完整过程的精确复制品,而是一种良好且有用的近似。
- 模型可以描述从数据中获取知识,或对预测将来(具有预测性),或者两者兼而有之。
- 几乎所有的科学都关注于用模型拟合数据:推理。
机器学习方法分类:
- 有监督学习:有标记数据 e.g. Fisher,、感知器算法、线性判别分析
- 无监督学习:无标注数据,降维方法K-L
- 半监督学习:无标注数据+有标注数据
- 多任务学习:共享相关任务之间的表征
- 迁移学习:训练数据与测试数据不是同分布的
- 强化学习:间接的标注数据(状态和对应的reward)
- 主动学习:主动选择训练数据
- 自监督学习:从无标注数据提取监督信号。
自监督学习是自主监督学习。它提取并使用自然可用的相关上下文和嵌入式元数据作为监督信号。
统计机器学习
框架
输入训练样本,目标是损失函数期望风险最小化
期望风险最小化:
经验风险最小化:(导致过拟合)
结构风险最小化:
过拟合及正则化
怎么样在测试数据上预测得好?
两方面:
- 模型对训练数据拟合得好-需要复杂的模型
- 模型具有一定的能力来容忍测试数据的不同行为-需要稳定的模型
正则项:在原来的经验损失函数中添加一个惩罚项,不鼓励复杂的模型
泛化能力分析
偏差-方差分解:expected loss=bias2+variance+noise
偏差:度量了模型的期望预测和真实结果的偏离程度
方差:刻画了数据扰动所造成的影响
噪声:与f相互独立,刻画了问题的难易程度
由正则化参数控制的偏差和方差对模型复杂性的依赖性说明:
大的值将权重参数拉至零导致较大偏差,较小的值允许对噪声进行微调,从而导致较大的方差
- 简单模型:低方差、高偏差
- 复杂模型:高方差、低偏差
对模型复杂度问题的深刻理解:
- 非常灵活的模型具有低偏差和高方差。
- 相对刚性的模型有大的偏差和低的方差。
- 具有最佳预测能力的模型是使得偏差和方差之间最佳平衡的模型。
- 偏差-方差分解的实际应用价值有限:
- 偏差和方差无法计算,因为它依赖于了解x和y的真实分布。
- 偏差-方差分解基于数据集集合的平均值,而实际上我们只有单个观测数据集。
研究生课程:模式识别与机器学习-第5章 统计机器学习
https://zhangzhao219.github.io/2022/10/13/UCAS/pattern-recognition-and-machine-learning/pattern-recognition-and-machine-learning-5/