研究生课程:现代信息检索-第12讲 支持向量机和排序学习

《现代信息检索》课程笔记:第12讲 支持向量机和排序学习

第12讲 支持向量机和排序学习

支持向量机

线性可分情况下,不仅要区分开,而且要使得区分间隔最大

最优超平面)是使得两类的分类间隔(Margin)最大的超平面,即每类中离超平面最近的样本到超平面的距离最大。距离这个最优超平面最近的样本被称为支持向量。

求解最优超平面就相当于,在上述约束条件下,求2/||W||的最大值 ,即以下损失函数最小值

二次优化问题可以采用Lagrange方法求解

非线性可分情况下的处理

广义最优分类面方法:在线性不可分的情况下,就是某些训练样本不能满足约束条件,因此可以在条件中增加一个松弛项ζ(发音Zeta,也称
引入Soft Margin,软边界),变换约束条件。

变换到高维空间的支持向量机

  • SVM训练相对较慢,分类速度一般。但是分类效果较好。
  • 在面对非线性可分情况时,可以引入松弛变量进行处理或者通过空间变换到另一个线性可分空间进行处理。
  • SVM有很多实现工具,SMO/SVM light/SVM torch/LibSVM等等

为什么要使间隔最大化?

  • 分界面附近的点代表了不确定的分类决策,分类器会以两边各50%的概率做出决策
  • 具有很大分类间隔的分类器不会做出确定性很低的决策,它给出了一个分类的安全间隔
  • 度量中的微小错误和文档中的轻微变化不会导致错误分类
  • SVM 分类器:在决策面周围有大的间隔
  • 与放置(无穷的)决策超平面相比,如果要在类别间放置一个宽间隔,那么选择会少很多
  • 减少记忆容量、增加测试文档分类泛化能力

SVM用于支持多类问题:结构化SVM

排序学习

基于布尔权重的学习

  • 词项权重(如tfidf)的目标是为了度量词项的重要性
    • 将一篇文档中所有词项的权重加起来便可以计算文档和查询的相关度,基于该相关度可以对所有文档排序
  • 上述过程可以想象成一个文本分类问题
    • 词项权重可以从已判定的训练集合中学习得到
  • 上述研究方法被归入一类称为机器学习的相关度或排序学习

权重学习主要方法:

给定训练样例集合,每个样例表示为三元组<q, d, R(d,q)>

从上述样例中学习权重,使得学到的评分接近训练集中的相关性判定结果。

基于实数权重的学习

评分函数是两个因子的线性组合:

  • 查询和文档的向量空间相似度评分
  • 查询词项在文档中存在的最小窗口宽度

我们的一个因子取决于查询词项在文档中的词袋统计量,另一个因子取决于邻近度权重

基于机器学习的检索结果排序

基于序回归的排序学习

将IR排序问题看成序回归

对于同一查询,文档之间可以按照相对得分排序即可,并不一定要求每篇文档有一个全局的绝对得分。因此,只需要一个排序,而不要得到相关度的绝对得分,问题空间可以减小。

排序SVM的构建

  • 给定一些已经判定的查询
  • 对训练集中的每条查询q, 我们都有针对该查询的一系列文档集合,这些文档已经由人工按照其与查询的相关度排序
  • 对每个文档、查询对,构造特征向量 ψj = ψ(dj , q),这里的特征可以采用前面讨论的特征
  • 对于两篇文档di 和dj ,可以计算特征向量之间的差异向量

排序学习总结

排序学习算法现在一般分为以下三类

  • Pointwise (即本讲介绍的权重学习方法):每个文档是一个训练样本,预测文档相关/不相关
  • Pairwise (即本讲介绍的序回归方法):文档对构成一个训练样本,预测一个文档相关性是否高于另一个文档
  • Listwise(基于列表的排序学习,未介绍):一个文档排序列表构成一个训练样本,预测最优排序

虽然近年来基于深度学习和大规模预训练语言模型的方法已成功应用于IR,排序学习仍然是一种整合不同文本特征的有效方法。


研究生课程:现代信息检索-第12讲 支持向量机和排序学习
https://zhangzhao219.github.io/2022/10/02/UCAS/information-retrieval/information-retrieval-12/
作者
Zhang Zhao
发布于
2022年10月2日
许可协议