研究生课程:现代信息检索-第5讲 文档评分、词项权重计算及向量空间模型

《现代信息检索》课程笔记:第5讲 文档评分、词项权重计算及向量空间模型

第5讲 文档评分、词项权重计算及向量空间模型

布尔检索

布尔检索的优点:

  • 对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择
  • 对应用开发来说也非常简单,很容易就可以返回1000多条结果

布尔检索的不足:

  • 对大多数用户来说不方便
  • 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写出合适的布尔查询
  • 大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索
  • 布尔查询常常会导致过少(=0)或者过多(>1000)的结果

在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询

排序式检索

排序式检索会对查询和文档的匹配程度进行排序,即给出一个查询和文档匹配评分

自由文本查询:与布尔查询不同,在排序式检索应用中,用户查询通常都是一个或几个关键字

排序式检索可以解决返回结果过少或过多的问题,可以把相关的结果排在前面

希望文档集中相关度高的文档排名高于相关度低的文档:对每个查询-文档对赋一个[0, 1]之间的分值,度量了文档和查询的匹配程度

Jaccard系数:计算两个集合重合度的常用方法,也就是计算查询文档之间的词项重合度——交集/并集

Jaccard系数的不足:

  • 不考虑词项频率 ,即词项在文档中的出现次数
  • 一般而言,罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息
  • 没有仔细考虑文档的长度因素

词项频率

查询-文档匹配评分计算:

从单词项查询(查询只包含一个词项)开始,若该词项不出现在文档当中,该文档得分应该为0,该词项在文档中出现越多,则得分越高。

即为词项频率 (term frequency,TF)评分

词袋(Bag of words)模型:不考虑词在文档中出现的顺序

利用tf来计算文档评分的方法:采用原始的tf值(raw tf)

但是原始tf不太合适:某个词项在A文档中出现十次,即tf = 10,在B文档中tf = 1,那么A比B更相关,但是相关度不会相差10倍。

替代原始tf的方法:对数词频

tf-idf权重计算

罕见词项比常见词所蕴含的信息更多

考虑查询中某个词项,它在整个文档集中非常罕见,但是某篇包含该词项的文档很可能相关,因此需要提高权重

常见词项的信息量不如罕见词,一篇包含该词项的文档当然比不包含该词项的文档的相关度要高,但是,这些词对于相关度而言并不是非常强的指示词。

文档频率(Document frequency, df):出现词项的文档数目

  • 对于罕见词项我们希望赋予高权重
  • 对于常见词我们希望赋予正的低权重

idf 权重

是出现词项的文档数目

是和词项的信息量成反比的一个值

于是可以定义词项t的idf权重(逆文档频率):,其中是文档集中文档的数目

是反映词项的信息量的一个指标,是一种全局性指标,反应的是词项在全局的区别性。

对于单词项查询,idf对文档排序没有任何影响,idf 会影响至少包含2个词项的查询的文档排序结果

词项的tf-idf权重是tf权重和idf权重的乘积:

tf-idf权重:

  • 随着词项频率的增大而增大(局部信息)
  • 随着词项罕见度的增加而增大(全局信息)

向量空间模型

二值-tfidf矩阵

文档表示成向量:每篇文档表示成一个基于tfidf权重的实值向量 ∈ R|V|。有一个|V|维实值空间,空间的每一维都对应词项,文档都是该空间下的一个点或者向量。

查询看成向量:

  • 关键思路1:对于查询做同样的处理,即将查询表示成同一高维空间的向量
  • 关键思路2:按照文档对查询的邻近程度排序,邻近度 = 相似度,邻近度≈ 距离的反面

向量空间下相似度:利用余弦相似度

文档长度归一化:一个向量可以通过除以它的长度进行归一化处理(防止长度影响)

问题:

余弦归一化倾向于短文档,即对短文档产生的归一化因子太大,而平均而言对长文档产生的归一化因子太小,因此余弦归一化对长文档的惩罚过重,实际上长文档中虽然词频较高,但也会包含较多的信息。

可以先找到一个支点(pivot,平衡点),然后通过这个支点对余弦归一化操作进行线性调整。因此短文档的相似度降低,而长文档的相似度增大,可以去除原来余弦归一化偏向短文档的问题

回转归一化:基本思想是旋转归一化曲线,使得两条曲线尽量重合

向量空间模型小结:

  • 将查询表示成tf-idf权重向量
  • 将每篇文档表示成同一空间下的 tf-idf权重向量
  • 计算两个向量之间的某种相似度(如余弦相似度)
  • 按照相似度大小将文档排序
  • 将前K(如K =10)篇文档返回给用户

研究生课程:现代信息检索-第5讲 文档评分、词项权重计算及向量空间模型
https://zhangzhao219.github.io/2022/09/12/UCAS/information-retrieval/information-retrieval-5/
作者
Zhang Zhao
发布于
2022年9月12日
许可协议