全栈工程师修炼指南

和搜索引擎的对话:SEO的原理和基础

2020-11-30  本文已影响0人  码农架构

SEO(Search Engine Optimization)

当网站发布上线以后,我们希望通过适当的优化调整,让它可以被搜索引擎更好地“理解”,在用户使用搜索引擎搜索的时候,网站的内容可以更恰当地暴露给用户。

互联网搜索引擎

组成部分

  1. 爬取(Crawling)
  2. 建立索引(Indexing)
  3. 返回结果(Serving Results)

PageRank

在 PageRank 以前,排序大多依靠对搜索关键字和目标页的匹配度来进行,这种排序方式弊端非常明显,尤其对于善于堆砌关键字“舞弊”的页面,很容易就跳到了搜索结果的首页。但是这样的页面对于用户来说,价值非常小。

PageRank 算法的本质,就是利用网页之间的关联关系来确定网页的影响力权重。而这个关联关系,就是网页之间的超链接,换言之,如果一个页面被各种其它页面引用,特别是被“重要”的网站和页面引用,这就说明这个页面的权重更高。

在实际搜索的时候,需要做到两个因素的平衡:一个是 Reputation,也就是上面说的这个影响力,它并不会因为用户单次搜索的关键字不同而改变;还有一个是 Proximity,也就是接近程度,这是根据用户搜索的关键字的匹配程度来确定返回网页的。

SEO 相关技术

白帽和黑帽

当我们明确了上述的目的,遵循搜索引擎规则,通过正当和高效的技术途径来实现 SEO 的效果,这样的方法叫做白帽(White Hat)法。相应的,如果是通过作弊、欺骗这样的手段,就叫做黑帽(Black Hat)法。

搜索引擎在评估网站前文所述的影响力的时候,有许许多多不同的“Ranking Signal”,它指的就是会影响返回的网页排序的“信号”,它们共同决定了一个页面的影响力, 例子:

  1. 网站的正常运行时间。比方说,如果一个站点,在爬虫爬取的时候总是遭遇 4xx、5xx 这样的错误,显然对影响力是一个负面的加权。
  2. 网站的年龄,网页内容的新鲜程度,好的原创内容总是最好的优化方式。
  3. 网站采用 HTTPS 还是 HTTP,显然 HTTPS 要更优。
  4. HTML 代码的质量,是否存在错误。
  5. 网页在站点访问的深度。

黑帽法:

站内优化和站外优化

站内优化,其实指的就是在自己管理的网站内部做优化工作来实现 SEO。比如我们之前反复提到的关键字,

站外优化则和站内优化相反,优化工作是在目标站之外开展的,比如众所周知的“友情链接”,就是一种提供外链的站外优化方式。

roberts.txt

“roberts.txt”是网站根目录下直接能够访问到的文本文件,它是一个对于网络爬虫的规约,告诉它这个网站下哪些内容你是可以爬取的,哪些内容你是不能爬的。值得注意的是,roberts.txt 不是标准,也不是规范,而是一种“约定俗成”,几乎所有的搜索引擎都会遵守它。

网站地图

网站地图则可以清晰直接地告诉搜索引擎网站内“重要”的页面都有哪些(无论是否被链接指向),它们的更新习惯,包括最近一次是什么时候更新的,更新频率是多少,以及对于整个网站来说,不同页面的重要性比重是多少。

对于网站地图,除了被动等待爬虫的抓取,搜索引擎服务往往还提供另一种方式来报告网站地图的变更,那就是允许网站管理员主动去提交变更信息,这种方式和爬虫来爬取比较起来,类似于我们从第一章就开始讲的 pull 和 push 的区别,这种方式对于网站管理员来说更麻烦,但是显然可以更为及时地让搜索引擎获知并收录最新数据。

统计分析

在进行 SEO 的改动调整之后,我们需要一些方式来跟踪和评估效果。像 Google Analytics 和百度统计,就提供了这样的功能。

扩展阅读

上一篇下一篇

猜你喜欢

热点阅读