研究生课程:现代信息检索-第6讲 概率检索模型

《现代信息检索》课程笔记:第6讲 概率检索模型

第6讲 概率检索模型

向量空间模型的优缺点

优点:

  • 简洁直观,可以应用到很多其他领域(文本分类、生物信息学)。
  • 支持部分匹配和近似匹配,结果可以排序
  • 检索效果不错

缺点:

  • 理论上不够严谨,往往基于直觉的经验性公式
  • 词项之间的独立性假设与实际不符:实际上,词项的出现之间是有关系的,并不是完全独立的。

基本概率统计知识

检索系统中,给定查询,计算每个文档的相关度

检索系统对用户查询的理解是非确定的(uncertain),对返回结果的猜测也是非确定的

而概率理论为非确定推理提供了坚实的理论基础,可以计算文档和查询相关的可能性

概率检索模型是通过概率的方法将查询和文档联系起来

定义3个随机变量R、Q、D:相关度R={0,1},查询Q可以是q1,q2,…中的一个查询,文档D可以是d1,d2,…中的一篇文档,则可以通过计算条件概率P(R=1|Q=q,D=d)来度量文档和查询的相关度。

概率排序原理(PRP):

  • 如果文档按照与查询的相关概率大小返回,那么该返回结果是所有可能获得结果中效果最好的。
  • 如果文档按照与查询的相关概率大小返回,而这些相关概率又能够基于已知数据进行尽可能精确的估计,那么该返回结果是所有基于已知数据获得的可能的结果中效果最好的。

Logistic回归模型

回归分析:回归分析是处理变量之间相关关系的一种工具,回归的结果可以用于预测或者分类

一元线性回归:根据观测点,拟合出一条直线,使得某种损失 (如离差平方和)最小

Logistic回归是一种非线性回归,可以转化成线性回归来实现。

基本思想:为了求Q和D相关的概率P(R=1|Q,D),通过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这些函数的组合。

求解和使用过程:通过训练集合拟和得到相应系数 ,对于新的文档,代入公式计算得到概率P

优缺点:

  • 优点:直接引入数学工具,形式简洁。
  • 缺点:特征选择非常困难,实验中效果一般。
    • 以文档为样本(Pointwise)训练模型,无法解决不同查询之间的差异

BIM模型

二值独立概率模型

BIM模型通过贝叶斯公式对所求条件概率P(R=1|Q,D)展开进行计算,是一种生成式(generative)模型

对每个Q定义排序(Ranking)函数RSV(Q,D)

其中,P(D|R=1)、P(D|R=0)分别表示在相关和不相关情况下生成文档D的概率。Ranking函数显然是随着P(R=1|D)的增长而增长。

两种常用的文档生成的总体分布:多元贝努利分布和多项式分布

BIM中P(D|R=1)或P(D|R=0)的计算:类比M次独立试验

BIM模型公式的推导:pi qi参数的计算,RSJ权重

BIM计算过程:目标是求排序函数P(D|R=1)/P(D|R=0)

  • 首先估计或计算每个term分别在相关文档和不相关文档中的出现概率pi=P(t|R=1)及qi=P(t|R=0)
  • 然后根据独立性假设,将P(D|R=1)/P(D|R=0) 转化为pi和qi的某种组合,将pi和qi代入即可求解。

优点:

  • BIM模型建立在数学基础上,理论性较强

缺点:

  • 需要估计参数
  • 原始的BIM没有考虑TF、文档长度因素
  • BIM中同样存在词项独立性假设
  • BIM实质上是一个idf权重公式,仅考虑了全局信息,缺少局部信息。因此需要和TF权重配合使用

BM25模型

二重泊松分布

泊松分布是一个经典的随机分布:分布公式参数:均值 λ,分布形式随参数取值变化

关于文本中词频分布的一个经典结论:在高质量精英文档集(Elite Set)中:均值较高,接近正态分布;在整个语料中:均值低,接近指数分布

优点:

  • 一定程度上的理论化模型
  • 基于二重泊松假设——适用于绝大多数文本语料上的IR检索应用
  • 实验证明有效

缺点:

  • 待调参数多且参数敏感性高
  • 必须去停用词

BM25被视为现实应用中最好的IR模型之一。即便现在基于BERT预训练语言模型的方法可以获得更好的效果,仍然需要使用BM25进行无监督过滤来保证检索精度。


研究生课程:现代信息检索-第6讲 概率检索模型
https://zhangzhao219.github.io/2022/09/14/UCAS/information-retrieval/information-retrieval-6/
作者
Zhang Zhao
发布于
2022年9月14日
许可协议