研究生课程：现代信息检索-第16讲 Web搜索

《现代信息检索》课程笔记：第16讲 Web搜索

第16讲 Web搜索

搜索是Web上使用最多的应用之一

没有搜索引擎，Web甚至无法运转

没有搜索，很难找到所需的内容
没有搜索，在Web上创建内容也就缺了动机
- 如果没人看为什么要发布内容？
- 如果没有任何回报为什么要发布内容？
Web运转必须要有人买单
- 服务器、Web 基础设施、内容创建过程等需要费用支持
- 这些费用的相当大一部分都是通过搜索广告支付
- 可以说，搜索为Web 买单

兴趣聚合：具有相同兴趣的人，即使所处地理位置分散，也可以通过Web找到对方。

搜索引擎是实现兴趣聚合的关键事物

在Web上，搜索不仅仅是一个好的特点

Web是一个充满噪声数据且组织失调的集合体→大量的重复需要检测

用户可以（某种意义上）无控制和无限制地发布内容→大量作弊内容需要检测

传统广告：品牌广告、直接营销、

传统广告的不足：

互联网广告的优点：

互联网广告的主要形式：图片广告、文本广告、搜索广告、网页广告、

第一代搜索广告：Goto

第二代搜索广告：Google

如何对广告排序？

Web查询“长尾”现象：基于AOL查询频次的统计、基于查询频次的流量统计

长尾效应的解释

近似重复的检测：采用编辑距离指标计算页面之间的相似度

将每篇文档表示成一个shingle 集合

每个shingle 是一个基于词语的 n-gram

使用shingle 来计算文档之间的语法相似度

两个文档的相似度定义为它们的shingle 集合的Jaccard距离

每篇文档的shingle的个数非常大

为提高效率，接下来我们使用文档的梗概来表示文档，它由文档的shingle集合中精巧挑选出的子集构成

高效的近似重复检测：局部敏感哈希或排序

Study

#Postgraduate #UCAS #Information Retrieval

研究生课程：现代信息检索-第16讲 Web搜索

https://zhangzhao219.github.io/2022/10/22/UCAS/information-retrieval/information-retrieval-16/

作者

Zhang Zhao

发布于

2022年10月22日

许可协议