SEO网络营销外包重庆seo交流

【001SEO】搜索引擎工作原理大揭秘

2016-11-01  本文已影响92人  白开水成长记录

搜索引擎工作原理

在我们开始做SEO 时,随着一点点的了解我们怎是容易忽略SEO中最重要的知识理论--搜索引擎的工作原理。弄明白搜索引擎的工作原理,那么等遇到问题的时候,我们就知道问题的原因所在了,我们就能更好的优化我们的网站了。一个搜索引擎,一般由下面几个模块组成:

1、抓取模块

2、过滤模块

3、收录模块

4、排序模块

1、1抓取模块

1、搜索引擎抓取程序:蜘蛛

搜索引擎为了可以自动抓取互联网上面数以亿计的网页,必须有一个全自动的页面抓取程序。而这个程序我们一般称之为“蜘蛛”(也可以叫做“机器人”)。无论叫做蜘蛛还是机器人,只要记住指的是搜索引擎的抓取程序就可以了。(不同的搜索引擎叫法不同,如下:)

谷歌--谷歌机器人百度--百度蜘蛛360--360蜘蛛

2、怎么让蜘蛛来抓取我们的网站

外部链接:在已经被搜索引擎收录的网站上发布自己网站的链接,来吸引蜘蛛。(常用方法:交换友情链接)提交链接:我们通过链接提交工具提交给百度,百度就会派蜘蛛来抓取我们的网站了。百度网址提交工具网址:http://zhanzhang.baidu.com/linksubmit/url

蜘蛛自己来抓取:如果希望蜘蛛能够定期主动来自己的网站抓取,必须提供优质的网站内容。

3、怎么知道蜘蛛来过我们的网站

(1)百度抓取频次工具改工具网址为:http://zhanzhang.baidu.com/pressure/index(2)服务器日志IIS日志如果服务器开起了IIS日志功能,通过IIS日志文件看到蜘蛛来过的痕迹。

4、影响蜘蛛抓取的因素

有哪些因素可能造成蜘蛛无法正常抓取我们的网页,我们应该注意以下几点:(1)网址不能过长:百度建议网址的长度不要超过256个字节(一个英文占一个字节,一个中文占两个字节)例:蜘蛛喜欢:http://hongxinseo.com?p=1蜘蛛不喜欢:http://hongxinseo.com?ct=&tn=&rn=&ln=&mi=&on=p=1(2)网址中不要包含中文:百度对于中文网址的抓取效果比较差。(3)服务器质量差:浏览时总是打不开或打开速度很慢,影响蜘蛛抓取效果(4)Robot.txt屏蔽:由于SEO人员疏忽在Robot.txt文件里屏蔽了百度想要抓取的的页面。(5)避免出现蜘蛛难以解析的字符:如http://hongxinseo.com/abcdef/1479296575%JKSHKLSHI%.html(6)动态参数不要太多太复杂:过多且复杂的路径容易被蜘蛛认为不重要而放弃。

1、2过滤模块

蜘蛛为了保证自己的存储资源是用户和搜索引擎需要的,而过滤掉自己抓取回来无内容且质量低的页面的功能模块,即过滤模块(1)识别蜘蛛擅长对文字和链接的识别,不擅长图片和链接的识别。对于蜘蛛不擅长的识别很可能被当做垃圾网站过滤掉。(2)内容质量在识别内容的基础上,还会抓取网页内容,与数据库中的内容进行对比,如果与数据库中的内容大部分重复将被过滤掉。

1、3收录模块

通过过滤模块“考核”的网页,进行分词、数据格式标准化,然后将其存储到索引数据库中程序模块,我们称之为收录模块。

1、如何查看某个网页是否被收录

把该网址搜索到复制到百度搜索框中进行搜索。

2、如何查看一个网站的收录量

(1)site命令通过“site:域名”的命令,我们可以看到搜索引擎抓取了某个域名下的页面收录量。(2)索引量查询工具(3)收录量少怎么办?a.新站一般来说新站刚上线,要1-2个月才能收录。前期只收录一个首页,百度为了防止垃圾站的泛滥,故意拉长审核时间,要做的就是提供优质内容。b.老站收录量少,是网页内容质量太差导致,应尽快调整网站的内容质量。

1、4排序模块

对存入数据库中的页面,通过一系列算法得到的每个页面的权重,并且将其进行排序处理的程序,称之为排序模块。

1、完善基础优化

要想获得良好的排名,首先要做好网页的基础优化,包括:网站定位、网站结构、网站布局、网站代码、网站内容等

2、综合数据良好

在做好基础优化的基础上,加入你的百度统计后台数据表现良好,用户的忠诚度以及站外推广的效果显著的话,就会在集合线上加分,有利于排名。

1、5总结

了解搜索引擎的原理有什么用呢?就在于当遇到一些SEO技术问题的时候,可以通过搜索引擎的原理找到原因,轻松应对。

上一篇下一篇

猜你喜欢

热点阅读