一搜索引擎概述

2016-08-28 本文已影响54人狼之足迹

搜索引擎:一种用来在计算机网络,特别是万维网上检索各种文件的计算机程序.

是一种查询系统,也是一个用户自定义的信息聚合系统(根据用户定义的需求,爬取网络上的资源,整个为本地离线信息集合)

三种搜索服务方式

目录式搜索引擎
依赖编辑人员进行筛选,在此基础进行分类,形成分类目录结构.
eg早期雅虎,搜狐搜索:一种类似的黄页查询,搜索信息不全面,更新不及时

全文搜索引擎
针对万维网所有网页进行全文搜索的搜索引擎.由下载系统以某种策略自动在万维网搜索和发现信息,由搜索引擎为搜索到的信息建立索引,由禅寻系统根据用户的查询输入检索索引库,并返回给用户.
服务方式是面向网页的全文检索服务
优点:信息量大,更新即使,无人干扰.
缺点:返回信息太多,有太多无关信息

元搜索引擎(MetaSearch Engine)
没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交.然后将返回的结果进行重新排除和重新排序等处理后,作为自己的结果返回给用户.
服务方式为面向网页的全文检索
优点:返回结果信息量大
缺点:不能充分使用原搜索引擎的功能,用户需要更多的筛选
代表:webCrawler

搜索引擎的主要需求
快速
全面:查全率(Recall)作为衡量检索是否全面的衡量标准:全部相关网页/查出相关网页-->索引越多,查全率却高
准确:查准率:相关文档数/检索出的文档总数.
可靠:存储,查询,索引中考虑
廉价