研究生课程:现代信息检索-第16讲 Web搜索
《现代信息检索》课程笔记:第16讲 Web搜索
第16讲 Web搜索
互联网上的搜索
搜索是Web上使用最多的应用之一
没有搜索引擎,Web甚至无法运转
- 没有搜索,很难找到所需的内容
- 没有搜索,在Web上创建内容也就缺了动机
- 如果没人看为什么要发布内容?
- 如果没有任何回报为什么要发布内容?
- Web运转必须要有人买单
- 服务器、Web 基础设施、内容创建过程等需要费用支持
- 这些费用的相当大一部分都是通过搜索广告支付
- 可以说,搜索为Web 买单
兴趣聚合:具有相同兴趣的人,即使所处地理位置分散,也可以通过Web找到对方。
搜索引擎是实现兴趣聚合的关键事物
在Web上,搜索不仅仅是一个好的特点
Web是一个充满噪声数据且组织失调的集合体→大量的重复需要检测
用户可以(某种意义上)无控制和无限制地发布内容→大量作弊内容需要检测
互联网广告
传统广告:品牌广告、直接营销、
传统广告的不足:
- 广告投放场地或媒介相对有限:报纸、电视、杂志、橱窗、公汽、电梯等
- 广告场地的费用一般不菲:CCTV 标王
- 很难进行个性化
- 投放效果取决于广告商的智慧
- 投放效果很难度量
互联网广告的优点:
- 无限机会
- 无限创意
- 完全可以个性化处理
- 每次点击花费的代价很低
- 定量度量程度高
互联网广告的主要形式:图片广告、文本广告、搜索广告、网页广告、
第一代搜索广告:Goto
第二代搜索广告:Google
如何对广告排序?
- 简单的方法:按照类似 Goto 的方式,即按照投标价格排序
- 替代方法:按照投标价格和相关性排序(相关度度量的关键指标:点击率)
Web查询“长尾”现象:基于AOL查询频次的统计、基于查询频次的流量统计
长尾效应的解释
- 大多数用户搜索“常见”查询;一小部分用户搜索“罕见”查询
- 大量用户使用“常见”查询;同时大量用户也会使用一些“罕见”查询
重复检测
- Web上充斥重复内容
- 相对其它文档集合,Web 上的重复内容更多
- 完全重复:易剔除,比如采用哈希指纹的方法
- 近似重复:Web上存在大量近似重复,很难剔除
- 对用户而言,如果搜索结果中存在不少几乎相同的页面,那么体验非常不好
- 边缘相关度(Marginal relevance) 为 0 :如果一篇高度相关的文档出现在另一篇高度近似的文档之后,那么该文档变得不相关
- 必须要去除这些近似重复
近似重复的检测:采用编辑距离指标计算页面之间的相似度
将每篇文档表示成一个shingle 集合
每个shingle 是一个基于词语的 n-gram
使用shingle 来计算文档之间的语法相似度
两个文档的相似度定义为它们的shingle 集合的Jaccard距离
每篇文档的shingle的个数非常大
为提高效率,接下来我们使用文档的梗概来表示文档,它由文档的shingle集合中精巧挑选出的子集构成
高效的近似重复检测:局部敏感哈希或排序
研究生课程:现代信息检索-第16讲 Web搜索
https://zhangzhao219.github.io/2022/10/22/UCAS/information-retrieval/information-retrieval-16/