研究生课程：模式识别与机器学习-期末复习

《模式识别与机器学习》期末复习

第1章引言

模式识别：利用计算机对物理对象进行分类，在错误概率最小的条件下，使识别的结果尽量与客观物体相符合

在特征空间和解释空间之间找到一种映射关系：

机器学习：利用大量的训练数据，获得产生数据的模式或预测

第2章统计判别

贝叶斯

作为统计判别问题的模式分类

zIk0aQ.md.jpg

正态分布模式的贝叶斯分类器

第3章判别函数

线性判别函数

什么是线性判别函数？

统计模式识别中用以对模式进行分类的一种最简单的判别函数称为线性判别函数。线性判别函数的一般形式是，其中是特征向量的增广形式，是权重系数。根据的取值进行分类，这个函数在几何上一般表现为直线（高维空间的超平面），所以称之为线性判别函数。

为什么需要非线性判别函数？

对于复杂的实际应用，线性分类器往往无法满足要求，不同类别的样本之间并不总是线性可分的，比如著名的异或问题，这就需要寻找能够实现非线性分类的判别函数分类器。

多类情况：

多类情况1：用M个判别函数将属于这一类的和不属于这一类的分开，也就是分类成功只能有一个大于0的
多类情况2：用M*(M-1)/2个判别函数，两两进行分类，只有这一类关于其他所有类的判别函数都大于0时才算分类成功
多类情况3：M个判别函数，没有不确定区域的多类情况2，判别函数比较大小即可

权重分量数量计算：，为的维度，为多项式次数。

Fisher线性判别

感知器

多类情况增广向量不需要变为负数，要求这个类别的比其他的类别都要大，否则这个类别+样本，其他的类别-样本

H-K算法可以发现类别不可分的情况

第4章特征选择和提取

K-L变换

第5章统计机器学习基础

期望风险：机器学习算法的目标就是降低式所示的期望泛化误差（这个数据量被称为风险），选择期望风险最小的模型。

经验风险：用训练集的分布代替真实情况下的数据分布，最小化训练集上的期望损失

结构风险：在经验风险最小化的基础上再引入参数的正则化来限制模型能力，使其不要过度地最小化经验风险

偏差方差和噪声

简述偏差方差分解及其推导过程，并说明偏差、方差和噪声三部分的内在含义

zqsmin.md.jpg

过拟合和欠拟合

过拟合：当学习器把训练样本学的“太好”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，在训练集上效果好。但是在测试集上效果差，这样就会导致模型的泛化性能下降。

欠拟合：模型尚未学习到数据的真实结构。在训练集和验证集上的性能都很差。

如何判断一个模型处在过拟合状态还是欠拟合状态？

欠拟合情况：随着训练样本数增大，训练集得分和验证集得分相差不大，并且得分都不高。
过拟合情况：随着训练样本数增大，训练集得分上升的同时和验证集得分下降。

给出3种减轻模型过拟合的方法：

过拟合：

获得更多数据
降低模型复杂度
特征选择
早停
正则化
添加噪声

欠拟合：

增加特征数
增加模型复杂度
减小正则化参数

假设某研究者在 ImageNet 数据上使用线性支持向量机 Linear SVM 来做文本分类的任务，请说明在如下情况下分别如何操作才能得到更好的结果，并说明原因。

训练误差5％，验证误差10％，测试误差10％
- 训练、验证和测试误差都很大，模型处于欠拟合状态，可以选择将正则化参数C值适当调大，增大模型的复杂度
训练误差1％，验证误差10％，测试误差10％
- 训练误差比较小，验证和测试误差比较大，模型处于过拟合状态，可以选择进行数据增强、或者将C值适当调小，增加模型泛化能力
训练误差1％，验证误差3％，测试误差10％
- 训练和验证误差比较小，测试误差比较大，说明训练数据和测试数据的分布差别比较大，可以重新采样或者shuffle数据

如果使用SVM做二分类问题得到如下结果，分别应该采取什么措施以取得更好的结果？并说明原因。

训练集的分类准确率90%，验证集的分类准确率90%，测试集的分类准确率88%
- 训练、验证和测试准确率都很低，模型处于欠拟合状态，可以选择将正则化参数C值适当调大，增大模型的复杂度
训练集的分类准确率98%，验证集的分类准确率90%，测试集的分类准确率88%
- 训练准确率比较高，验证和测试准确率比较低，模型处于过拟合状态，可以选择进行数据增强、或者将C值适当调小，增加模型泛化能力

如果使用逻辑回归算法做二分类问题得到如下结果，分别应该采取什么措施以取得更好的结果？并说明理由。

训练集的分类准确率85%，验证集的分类准确率80%，测试集的分类准确率75%
- 训练、验证和测试准确率都很低，模型处于欠拟合状态，可以选择增加训练特征，使用更多的训练参数
训练集的分类准确率99%，验证集的分类准确率80%，测试集的分类准确率78%
- 训练准确率比较高，验证和测试准确率比较低，模型处于过拟合状态，可以选择减少训练特征，添加正则项，增加数据量等等

第6章有监督学习方法

公式推导相关

2018-2019

pSCUIW4.md.png

2021-2022

第7章支持向量机

径向基函数（RBF）gamma和C的影响：

参数gamma定义了单个训练样本的影响大小，值越小影响越大，值越大影响越小。参数gamma可以看作被模型选中作为支持向量的样本的影响半径的倒数。gamma越大半径越窄，因此如果欠拟合需要增大gamma，分的更准
参数C在误分类样本和分界面之间进行权衡。低的C值使分界面平滑，而高的C值通过增加模型自由度以选择更多支持向量来确保所有样本都被正确分类。因此如果欠拟合要增大C

最小化VC维h等价于最大化间隔，使分类器的复杂度小！

简述SVM算法的原理