研究生课程:现代信息检索-第16讲 Web搜索

《现代信息检索》课程笔记:第16讲 Web搜索

第16讲 Web搜索

互联网上的搜索

搜索是Web上使用最多的应用之一

没有搜索引擎,Web甚至无法运转

  • 没有搜索,很难找到所需的内容
  • 没有搜索,在Web上创建内容也就缺了动机
    • 如果没人看为什么要发布内容?
    • 如果没有任何回报为什么要发布内容?
  • Web运转必须要有人买单
    • 服务器、Web 基础设施、内容创建过程等需要费用支持
    • 这些费用的相当大一部分都是通过搜索广告支付
    • 可以说,搜索为Web 买单

兴趣聚合:具有相同兴趣的人,即使所处地理位置分散,也可以通过Web找到对方。

搜索引擎是实现兴趣聚合的关键事物

在Web上,搜索不仅仅是一个好的特点

Web是一个充满噪声数据且组织失调的集合体→大量的重复需要检测

用户可以(某种意义上)无控制和无限制地发布内容→大量作弊内容需要检测

互联网广告

传统广告:品牌广告、直接营销、

传统广告的不足:

  • 广告投放场地或媒介相对有限:报纸、电视、杂志、橱窗、公汽、电梯等
  • 广告场地的费用一般不菲:CCTV 标王
  • 很难进行个性化
  • 投放效果取决于广告商的智慧
  • 投放效果很难度量

互联网广告的优点:

  • 无限机会
  • 无限创意
  • 完全可以个性化处理
  • 每次点击花费的代价很低
  • 定量度量程度高

互联网广告的主要形式:图片广告、文本广告、搜索广告、网页广告、

第一代搜索广告:Goto

第二代搜索广告:Google

如何对广告排序?

  • 简单的方法:按照类似 Goto 的方式,即按照投标价格排序
  • 替代方法:按照投标价格和相关性排序(相关度度量的关键指标:点击率)

Web查询“长尾”现象:基于AOL查询频次的统计、基于查询频次的流量统计

长尾效应的解释

  • 大多数用户搜索“常见”查询;一小部分用户搜索“罕见”查询
  • 大量用户使用“常见”查询;同时大量用户也会使用一些“罕见”查询

重复检测

  • Web上充斥重复内容
  • 相对其它文档集合,Web 上的重复内容更多
  • 完全重复:易剔除,比如采用哈希指纹的方法
  • 近似重复:Web上存在大量近似重复,很难剔除
  • 对用户而言,如果搜索结果中存在不少几乎相同的页面,那么体验非常不好
  • 边缘相关度(Marginal relevance) 为 0 :如果一篇高度相关的文档出现在另一篇高度近似的文档之后,那么该文档变得不相关
  • 必须要去除这些近似重复

近似重复的检测:采用编辑距离指标计算页面之间的相似度

将每篇文档表示成一个shingle 集合

每个shingle 是一个基于词语的 n-gram

使用shingle 来计算文档之间的语法相似度

两个文档的相似度定义为它们的shingle 集合的Jaccard距离

每篇文档的shingle的个数非常大

为提高效率,接下来我们使用文档的梗概来表示文档,它由文档的shingle集合中精巧挑选出的子集构成

高效的近似重复检测:局部敏感哈希或排序


研究生课程:现代信息检索-第16讲 Web搜索
https://zhangzhao219.github.io/2022/10/22/UCAS/information-retrieval/information-retrieval-16/
作者
Zhang Zhao
发布于
2022年10月22日
许可协议