研究生课程:现代信息检索-第7讲 基于语言建模的IR模型
《现代信息检索》课程笔记:第7讲 基于语言建模的IR模型
第7讲 基于语言建模的IR模型
语言模型
统计语言模型(Statistical Language Modeling,SLM)
SLM广泛使用于语音识别和统计机器翻译领域,利用概率统计理论研究语言。
规则方法:词、句、篇章的生成比如满足某些规则,不满足该规则就不应存在。
统计方法:任何语言片断都有存在的可能,只是可能性大小不同
对于n-gram,n越大,则模型越复杂,估计的参数(即估计的概率)也越多。当然,当数据量足够大的情况下,模型阶数越高越对片段概率的计算也越准确。
理论上说,在数据充足的情况下,利用更多的历史高阶的模型更准确,但是总计算量也越大
数据规模总是有限的,即用于训练模型参数的语料存在稀疏性 (Data Sparseness ,即某参数在训练语料中没有出现问题。
数据稀疏性导致零概率问题,但是训练集上不出现的事件并不代表在新的语料上不出现。
SLM的一个重要工作就是进行平滑重新分配概率,即使没出现的事件也会赋予一个概率。
基于统计建模的IR模型
- 查询似然模型:把相关度看成是每篇文档对应的语言下生成该查询的可能性
- 翻译模型:假设查询经过某个噪声信道变形成某篇文章,则由文档还原成该查询的概率翻译模型可以视为相关度
- KL距离模型 :查询对应某种语言,每篇文档对应某种语言,查询语言和文档语言的KL距离作为相关度度量
总体分布&抽样
文档的模型风格实际上是某种总体分布
(待评分)文档和查询都是该总体分布下的一个抽样样本实例
根据文档,估计文档的模型,即求出该总体分布(一般假设某种总体分布,然后求出其参数),然后计算该总体分布下抽样出查询的概率
查询似然模型(Query Likelihood Model)
文本生成的多项式模型
数据平滑的一般形式
其它SLMIR 模型
- 查询似然类:文档建模、计算查询的似然、基本QLM 模型、翻译模型等
- 文档似然类:查询建模、计算文档的似然、BIM模型、相关性模型等
- 模型比较类:文档建模、查询建模,计算两个模型的距离,KL距离模型
基于翻译模型的IR模型:
基本的QLM模型不能解决词语失配(word mismatch)问题,即查询中的用词和文档中的用词不一致
翻译概率P(qi|wj)在计算时可以将词项之间的关系融入。
- 基于词典来计算(人工或者自动构造的同义词/近义词/翻译词典)
- 基于语料库来计算(标题、摘要vs. 文本;文档锚文本vs. 文档)
KL距离(相对熵)模型
统计语言建模IR模型优缺点
优点:
- 理论上具有解释性,有扩展空间
- 有些模型虽然计算上仍然依赖于term 独立性假设,
- 但是模型本身并不依赖于 term 独立性假设。
缺点:数据稀疏性,需要参数估计
SLMIR模型讨论
- SLMIR中有一些东西和VSM一样
- 词项频率直接在模型中使用
- 但是在SLMIR 中没有进行放缩变化
- 本质上概率表示已经进行了长度归一化
- VSM中的余弦归一化也做了类似工作
- 文档中的词项频率和文档集频率混合以后和idf的效果相当
- 那些文档集中比较罕见,但是某些文档中比较普遍的词项将对排序起更重要的影响。
SLMIR vs. VSM :
共性:
- 模型中都直接使用了词项频率
- 本质上概率表示已经进行了长度归一化
- 文档中词项频率和文档集频率混合以后和idf的效果相当
不同:
- SLMIR:基于概率论
- VSM:基于相似度,一个线性代数中的概念
- 文档集频率、文档概率、词项频率、归一化等计算细节
基于统计建模的IR模型 : 假设
- 简化假设:查询和文档是同一类对象,与实际并不相符
- 已经出现了一些不采用上述假设的SLMIR模型
- VSM也基于同一假设
- 简化假设:词项之间是独立的
- VSM 中也采用了词项独立性假设
- 比向量空间中的假设表述更清晰
- SLMIR比VSM 具有更好的理论基础,但是纯语言模型的效果会大大低于经过精心调参的向量模型的效果。