研究生课程:现代信息检索-第8讲 检索评价
《现代信息检索》课程笔记:第8讲 检索评价
第8讲 检索评价
检索评价
- 通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高
- 信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。
- 计算机应用学科偏重于研究“更好的”方法/算法/模型,需要一种公平可靠的方法和指标体系进行评价
评价什么?
- 效率:时间开销、空间开销、响应速度
- 效果:
- 返回的文档中有多少相关文档
- 所有相关文档中返回了多少
- 返回得靠不靠前
- 其他指标:覆盖率、访问量、数据更新速度
使用相同的文档集合,相同的查询主题集合,相同的评价指标,对不同的检索系统进行比较。
评价指标:某个或某几个可衡量、可比较的值
评价过程:设计上保证公平、合理
IR中评价的难点:相关性(Relevance)是一个主观概念,文档相关性依赖于查询(数据标记工作量庞大)
评价指标
- 对单个查询进行评估的指标:在单个查询上检索系统的得分
召回率(Recall):返回的相关结果数占实际相关结果总数的比率
正确率(Precision):返回的结果中真正相关结果的比率
虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。
- 垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。
- 有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。
问题①:召回率难以计算:
对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,这种情况几乎不可能准确地计算召回率可以采用Pooling方法,或者不考虑召回
缓冲池(Pooling)方法:对多个检索系统的Top k个结果组成的集合(并集)进行人工标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的(可以比较不同系统的相对效果),在TREC会议中被广泛采用。
问题②:两个指标需要融成一个指标,或者只采用单一指标
F值(F-measure):召回率R和正确率P的调和平均值
Fβ:表示召回率的重要程度是正确率的β(>=0)倍,β>1更重视召回率, β<1更重视正确率
E(Effectiveness)值:召回率R和正确率P的加权平均值,b>1表示更重视P
精确率是所有判定中正确的比率,一般不使用这一评价指标
- 由于和查询相关毕竟占文档集的极少数,所以即使什么都不返回,可能对大部分查询来说可以得到 99.99%以上的精确率
- 信息检索用户希望找到某些文档并且能够容忍结果中有一定的不相关性,返回一些即使不好的文档也比不返回任何文档强
问题③:两个指标都是基于(无序)集合进行计算,并没有考虑(排)序的作用
R-Precision:检索结果中,在所有相关文档总数位置上的准确率,如某个查询的相关文档总数为80,则计算检索结果中在前80篇文档的正确率。
正确率-召回率 曲线:检索结果以排序方式排列,用户不可能马上看到全部文档,因此,在用户观察的过程中,正确率和召回率在不断变化。
在上面的曲线对应的系统结果更好,也就是线下的面积(AUC)
P-R 曲线的插值问题:利用存在的召回率点对不存在的召回率点进行插值
优点:
- 简单直观
- 既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况
缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣
基于P-R曲线的单一指标:P-R曲线上P=R的那个点(Break Point)
平均正确率(Average Precision, AP):对不同召回率点上的正确率进行平均
不考虑召回率的指标:
Precision@N:在第N个位置上的正确率,对于搜索引擎,大量统计数据表明,大部分搜索引擎用户只关注前一、两页的结果,
- 对多个查询进行评估的指标:在多个查询上检索系统的得分
平均的求法:
- 宏平均(Macro Average): 对每个查询求出某个指标,然后对这些指标进行算术平均
- 微平均(Micro Average): 将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算
- 宏平均对所有查询一视同仁,微平均受返回相关文档数目比较大的查询影响
MAP(Mean AP):对所有查询的AP求宏平均
整个IR系统的P-R曲线:
在每个召回率点上,对所有的查询在此点上的正确率进行算术平均,得到系统在该点上的正确率的平均值。
两个检索系统可以通过P-R曲线进行比较。位置在上面的曲线代表的系统性能占优。
MRR(Mean Reciprocal Rank): 对于某些IR系统(如问答系统或主页发现系统),只关心第一个标准答案返回的位置(Rank),越前越好,这个位置的倒数称为RR,对问题集合求平均,则得到MRR
Bpref:在相关性判断不完全的情况下,计算在进行了相关性判断的文档集合中,在判断到相关文档前,需要判断的不相关文档的篇数。
相关性判断完全的情况下,利用Bpref和MAP进行评价的结果很一致,但是相关性判断不完全的情况下,Bpref更鲁棒
GMAP:几何平均值
NDCG:对于返回结果,相关度级别越高的结果越多越好,相关度级别越高的结果越靠前越好。
优点:
- 图形直观,易解释
- 支持非二值的相关度定义,比P-R曲线更精确
- 能够反映用户的行为特征(如:用户的持续性)
缺点:
- 相关度的定义难以一致
- 需要参数设定
现有评价体系远没有达到完美程度
- 对评价的评价研究
- 指标的相关属性(公正性、敏感性)的研究
- 新的指标的提出(新特点、新领域)
- 指标的计算(比如Pooling方法中如何降低人工代价?查询集或文档集合发生变化怎么办?)
相关评测
TREC
总目标:支持在信息检索领域的基础研究,提供对大规模文本检索方法的评估办法
- 鼓励对基于大测试集合的信息检索方法的研究
- 提供一个可以用来交流研究思想的论坛,增进工业界、学术界和政府部门之间的互相了解;
- 示范信息检索理论在解决实际问题方面的重大进步,提高信息检索技术从理论走向商业应用的速度;
- 为工业界和学术界提高评估技术的可用性,并开发新的更为适用的评估技术。