读改变未来的九大算法笔记07_搜索引擎

2023-06-08 本文已影响0人躺柒

读改变未来的九大算法笔记07_搜索引擎.png

1. 车库轶事

1.1. 1939年

1.1.1. 戴夫·休利特（Dave Hewlett）

1.1.1.1. 惠普（Hewlett-Packard）

1.2. 1976年

1.2.1. 蒂夫·乔布斯（Steve Jobs）和史蒂夫·沃兹尼亚克（Steve Wozniak）

1.2.1.1. 从一间卧室开始的，空间很快就不够用了，于是他们转移到了车库

1.3. 1998年

1.3.1. 佩奇和布林

1.3.1.1. 谷歌

1.3.1.1.1. 门洛帕克车库

2. 互联网搜索历史

2.1. 1945年

2.1.1. 超链接

2.1.1.1. 美国工程师范内瓦·布什（Vannevar Bush）

2.1.1.2. 论文《诚若所思》（As We May Think）

2.1.1.3. 一台被称作麦麦克斯（memex）的机器

2.1.1.3.1. 允许“关联索引……任何被选中的东西都能立即自动选择另一个东西”

2.1.1.3.2. 一种早期的超链接

2.2. 1994年

2.2.1. Infoseek

2.2.2. Lycos

2.3. 1995年

2.3.1. AltaVista

2.4. 1999年

2.4.1. AltaVista递交的美国专利文件《索引的限制搜索》（“Constrained searching of an index”）中描述了元词把戏

3. 两大主要任务

3.1. 匹配（matching）

3.2. 排名（ranking）

4. 匹配算法

4.1. AltaVista：互联网级别的第一种匹配算法

4.1.1. 20世纪90年代中期，AltaVista是搜索引擎的王者

4.1.2. 有史以来第一次，有一个搜索引擎能完全索引互联网上每个页面的全部文本

4.2. 有效匹配只是高效搜索引擎的一大挑战

4.3. 索引

4.3.1. 是所有搜索引擎背后最基础的思想

4.3.2. 是计算机科学中最古老的有用思想

4.3.3. 互联网搜索引擎的索引和一本书的索引有着相同的工作原理

4.3.3.1. “书页”现在成了万维网上的网页

4.3.3.2. 搜索引擎则给互联网上的每个网页分配了一个不同的页码

4.3.4. 索引不仅应该存储页码，还要存储信息在页面内的位置

5. 排名和邻度

5.1. 查询词彼此相邻的网页比那些查询词相距很远的网页相关度更高

5.2. 搜索引擎在不断地使用和邻度有关的信息，以提高搜索排名

5.3. “NEAR”（邻近）关键词

5.3.1. NEAR查询

5.4. 搜索引擎的生死由其排名的质量决定，而通过利用网页结构，排名质量能够得到大幅提升

6. 元词把戏

6.1. Metaword Trick

6.2. 创建一份索引时，囊括所有元词是件很简单的事

6.3. 标题查询和其他取决于网页结构的“结构查询”类似于NEAR查询

7. 排名算法

7.1. PageRank

7.1.1. 一种对网页排名的算法

7.1.2. 主要发明者拉里·佩奇的排名算法

7.1.3. 学术会议论文《解析大规模超文本网络搜索引擎》（The Anatomy of a Large-Scale Hypertextual Web Search Engine）

7.1.4. 核心思想

7.1.4.1. 权威性网页通过超链接向其他网页传输权重

7.2. 基于链接的排名算法（Link-based Ranking Algorithms）

7.3. 超链接

7.3.1. 网页上的一个短语，当你点击它时，你将被带到另一个网页

7.3.2. 一个网页的链入链接数可能成为该网页“有用性”或“权威性”的指标

7.3.3. 人们可以滥用超链接把戏，人为地提高自己网页的排名

7.3.3.1. 搜索引擎称这种滥用为网络垃圾Web Spam

7.3.4. 一个有许多链入链接的网页应该有高排名

7.4. 权重

7.4.1. 来自高权重网页的链接排名要比来自低权重网页链接的排名高

7.4.2. 所有网页的初始权重值（Authority Score）都是1

7.4.2.1. 如果一个网页有链入链接，在计算该网页权重时就要加入指向其网页的权重

7.4.2.2. 如果X和Y网页链接Z网页，那么Z网页的权重就是X网页和Y网页权重相加的值

7.4.3. 和来自低权重网页的链入链接相比，一个来自高权重网页的链入链接应该更能证明一个网页的排名

7.5. 随机访问者

7.5.1. 超链接很有可能形成“循环”（cycle）

7.5.1.1. 随机访问者解决这个“鸡生蛋还是蛋生鸡”的问题

7.5.1.2. 不管超链接有没有形成循环，随机访问者把戏都能完美地运作

7.5.2. 关键点

7.5.2.1. 每次访问一个网页时，都有一个固定的重新访问概率（大概是15%），让访问者不从已有的超链接中挑选一个并点击

7.5.2.2. 网页的访问者权重值（Surfer Authority Score）

7.5.2.2.1. 一名随机访问者访问该网页的时间比例

7.5.3. 一个有许多链入链接的网页被访问的概率较大

7.5.4. 和一个来自不知名网页的链接相比，访问者更有可能继续点击一个来自知名网页的链入链接

7.5.5. 每个网页链入链接的质量和数量都会被纳入考虑范围

7.6. 搜索引擎并非通过模拟随机访问者来计算PageRank值：它们使用像随机访问者模拟一样给出相同答案的数学技巧，但计算成本要低很多

7.6.1. 商业搜索引擎中用来判定排名的算法要比PageRank这类基于链接的排名算法多得多