李亚涛:搜索引擎工作流程
2017-05-06 本文已影响0人
李亚涛爱分享
搜索引擎工作流程大概会涉及以下几个部分:
1、信息爬虫(蜘蛛)
2、内容处理
3、分词
4、去重
5、索引
6、内容相关性
7、链接分析
8、判断页面用户体验
9、反作弊
10、人工干预
11、缓存机制
12、用户需求分析
搜索引擎工作原理图如下:
搜索引擎原理整体分为三步:网页收集、预处理、查询服务
一、网页收集与预处理的流程大致如下:
第1步: 搜索引擎派出爬虫(spider蜘蛛),按照一样的策略把网页抓回到服务器
第2步:对抓取回来的网页进行链接抽离、内容处理、消除噪音版块、提取网页主题文本内容等
第3步:对网页文本内容进行中文分词、去除停止词(无意义的词,如的,啊,哦,是)
第4步:对网页内容进行分词后判断该页面内容与已索引网页是否重复,剔除重复页面,对剩余的网页进行倒排索引,然后等待用户的查询
二、当用户查询后,搜索引擎的工作流程大致如下:
第1步:先对用户所查询的关键词进行分词处理,然后根据用户的地理位置和历史搜索特征进行用户需求分析,然后个性化的展示用户最需要的信息
第2步:查询缓存中是否有该关键词的查询结果,如查有直接呈现查询结果,有时根据实际情况搜索引擎也会对缓存中的结果进行微调
第3步:如果用户查询的关键词在缓存中不存在,那就在索引库中的网页进行调取排名呈现给用户,并且将关键词与对应的搜索结果加入到缓存中,这样用户第2次搜索就直接调取缓存中的数据,效率更高
第4步:网页不仅是对索引库中的网页进行相关性、重要性进行排序,还有一个用户体验数据,也就是用户搜索后的点击和其他一些搜索操作,反过来也会影响到网页的排名
好了,今天就分享到这里
我是李亚涛,每天更新一篇原创文章,有1人看了有收获我就会非常开心!