研究生课程:现代信息检索-第7讲 基于语言建模的IR模型

《现代信息检索》课程笔记:第7讲 基于语言建模的IR模型

第7讲 基于语言建模的IR模型

语言模型

统计语言模型(Statistical Language Modeling,SLM)

SLM广泛使用于语音识别和统计机器翻译领域,利用概率统计理论研究语言。

规则方法:词、句、篇章的生成比如满足某些规则,不满足该规则就不应存在。

统计方法:任何语言片断都有存在的可能,只是可能性大小不同

对于n-gram,n越大,则模型越复杂,估计的参数(即估计的概率)也越多。当然,当数据量足够大的情况下,模型阶数越高越对片段概率的计算也越准确。

理论上说,在数据充足的情况下,利用更多的历史高阶的模型更准确,但是总计算量也越大

数据规模总是有限的,即用于训练模型参数的语料存在稀疏性 (Data Sparseness ,即某参数在训练语料中没有出现问题。

数据稀疏性导致零概率问题,但是训练集上不出现的事件并不代表在新的语料上不出现。

SLM的一个重要工作就是进行平滑重新分配概率,即使没出现的事件也会赋予一个概率。

基于统计建模的IR模型

  • 查询似然模型:把相关度看成是每篇文档对应的语言下生成该查询的可能性
  • 翻译模型:假设查询经过某个噪声信道变形成某篇文章,则由文档还原成该查询的概率翻译模型可以视为相关度
  • KL距离模型 :查询对应某种语言,每篇文档对应某种语言,查询语言和文档语言的KL距离作为相关度度量

总体分布&抽样

文档的模型风格实际上是某种总体分布

(待评分)文档和查询都是该总体分布下的一个抽样样本实例

根据文档,估计文档的模型,即求出该总体分布(一般假设某种总体分布,然后求出其参数),然后计算该总体分布下抽样出查询的概率

查询似然模型(Query Likelihood Model)

文本生成的多项式模型

数据平滑的一般形式

其它SLMIR 模型

  • 查询似然类:文档建模、计算查询的似然、基本QLM 模型、翻译模型等
  • 文档似然类:查询建模、计算文档的似然、BIM模型、相关性模型等
  • 模型比较类:文档建模、查询建模,计算两个模型的距离,KL距离模型

基于翻译模型的IR模型:

基本的QLM模型不能解决词语失配(word mismatch)问题,即查询中的用词和文档中的用词不一致

翻译概率P(qi|wj)在计算时可以将词项之间的关系融入。

  • 基于词典来计算(人工或者自动构造的同义词/近义词/翻译词典)
  • 基于语料库来计算(标题、摘要vs. 文本;文档锚文本vs. 文档)

KL距离(相对熵)模型

统计语言建模IR模型优缺点

优点:

  • 理论上具有解释性,有扩展空间
  • 有些模型虽然计算上仍然依赖于term 独立性假设,
  • 但是模型本身并不依赖于 term 独立性假设。

缺点:数据稀疏性,需要参数估计

SLMIR模型讨论

  • SLMIR中有一些东西和VSM一样
  • 词项频率直接在模型中使用
    • 但是在SLMIR 中没有进行放缩变化
  • 本质上概率表示已经进行了长度归一化
    • VSM中的余弦归一化也做了类似工作
  • 文档中的词项频率和文档集频率混合以后和idf的效果相当
    • 那些文档集中比较罕见,但是某些文档中比较普遍的词项将对排序起更重要的影响。

SLMIR vs. VSM :

共性:

  • 模型中都直接使用了词项频率
  • 本质上概率表示已经进行了长度归一化
  • 文档中词项频率和文档集频率混合以后和idf的效果相当

不同:

  • SLMIR:基于概率论
  • VSM:基于相似度,一个线性代数中的概念
  • 文档集频率、文档概率、词项频率、归一化等计算细节

基于统计建模的IR模型 : 假设

  • 简化假设:查询和文档是同一类对象,与实际并不相符
    • 已经出现了一些不采用上述假设的SLMIR模型
    • VSM也基于同一假设
  • 简化假设:词项之间是独立的
    • VSM 中也采用了词项独立性假设
  • 比向量空间中的假设表述更清晰
  • SLMIR比VSM 具有更好的理论基础,但是纯语言模型的效果会大大低于经过精心调参的向量模型的效果。

研究生课程:现代信息检索-第7讲 基于语言建模的IR模型
https://zhangzhao219.github.io/2022/09/17/UCAS/information-retrieval/information-retrieval-7/
作者
Zhang Zhao
发布于
2022年9月17日
许可协议