研究生课程：现代信息检索-第7讲基于语言建模的IR模型

《现代信息检索》课程笔记：第7讲基于语言建模的IR模型

第7讲基于语言建模的IR模型

语言模型

统计语言模型(Statistical Language Modeling，SLM)

SLM广泛使用于语音识别和统计机器翻译领域，利用概率统计理论研究语言。

规则方法：词、句、篇章的生成比如满足某些规则，不满足该规则就不应存在。

统计方法：任何语言片断都有存在的可能，只是可能性大小不同

对于n-gram，n越大，则模型越复杂，估计的参数(即估计的概率)也越多。当然，当数据量足够大的情况下，模型阶数越高越对片段概率的计算也越准确。

理论上说，在数据充足的情况下，利用更多的历史高阶的模型更准确，但是总计算量也越大

数据规模总是有限的，即用于训练模型参数的语料存在稀疏性 (Data Sparseness ，即某参数在训练语料中没有出现问题。

数据稀疏性导致零概率问题，但是训练集上不出现的事件并不代表在新的语料上不出现。

SLM的一个重要工作就是进行平滑重新分配概率，即使没出现的事件也会赋予一个概率。

基于统计建模的IR模型

查询似然模型：把相关度看成是每篇文档对应的语言下生成该查询的可能性
翻译模型：假设查询经过某个噪声信道变形成某篇文章，则由文档还原成该查询的概率翻译模型可以视为相关度
KL距离模型：查询对应某种语言，每篇文档对应某种语言，查询语言和文档语言的KL距离作为相关度度量

总体分布&抽样

文档的模型风格实际上是某种总体分布

（待评分）文档和查询都是该总体分布下的一个抽样样本实例

根据文档，估计文档的模型，即求出该总体分布（一般假设某种总体分布，然后求出其参数），然后计算该总体分布下抽样出查询的概率

查询似然模型（Query Likelihood Model）

文本生成的多项式模型

数据平滑的一般形式

其它SLMIR 模型

查询似然类：文档建模、计算查询的似然、基本QLM 模型、翻译模型等
文档似然类：查询建模、计算文档的似然、BIM模型、相关性模型等
模型比较类：文档建模、查询建模，计算两个模型的距离，KL距离模型

基于翻译模型的IR模型：

基本的QLM模型不能解决词语失配(word mismatch)问题，即查询中的用词和文档中的用词不一致

翻译概率P(qi|wj)在计算时可以将词项之间的关系融入。

基于词典来计算(人工或者自动构造的同义词/近义词/翻译词典)
基于语料库来计算(标题、摘要vs. 文本；文档锚文本vs. 文档)

KL距离(相对熵)模型

统计语言建模IR模型优缺点

优点：

理论上具有解释性，有扩展空间
有些模型虽然计算上仍然依赖于term 独立性假设，
但是模型本身并不依赖于 term 独立性假设。

缺点：数据稀疏性，需要参数估计

SLMIR模型讨论

SLMIR中有一些东西和VSM一样
词项频率直接在模型中使用
- 但是在SLMIR 中没有进行放缩变化
本质上概率表示已经进行了长度归一化
- VSM中的余弦归一化也做了类似工作
文档中的词项频率和文档集频率混合以后和idf的效果相当
- 那些文档集中比较罕见，但是某些文档中比较普遍的词项将对排序起更重要的影响。

SLMIR vs. VSM ：

共性：

模型中都直接使用了词项频率
本质上概率表示已经进行了长度归一化
文档中词项频率和文档集频率混合以后和idf的效果相当

不同：

SLMIR：基于概率论
VSM：基于相似度，一个线性代数中的概念
文档集频率、文档概率、词项频率、归一化等计算细节

基于统计建模的IR模型 : 假设

简化假设：查询和文档是同一类对象，与实际并不相符
- 已经出现了一些不采用上述假设的SLMIR模型
- VSM也基于同一假设
简化假设：词项之间是独立的
- VSM 中也采用了词项独立性假设
比向量空间中的假设表述更清晰
SLMIR比VSM 具有更好的理论基础，但是纯语言模型的效果会大大低于经过精心调参的向量模型的效果。

Study

#Postgraduate #UCAS #Information Retrieval

研究生课程：现代信息检索-第7讲基于语言建模的IR模型

https://zhangzhao219.github.io/2022/09/17/UCAS/information-retrieval/information-retrieval-7/

作者

Zhang Zhao

发布于

2022年9月17日

许可协议

Leetcode 刷题笔记-Leetcode 101 第15章图上一篇

Leetcode 刷题笔记-Leetcode 101 第14章树下一篇

研究生课程：现代信息检索-第7讲 基于语言建模的IR模型

第7讲 基于语言建模的IR模型

语言模型

基于统计建模的IR模型

SLMIR模型讨论

研究生课程：现代信息检索-第7讲基于语言建模的IR模型

第7讲基于语言建模的IR模型