关于爬虫

2018-12-23  本文已影响21人  凌屿

什么是爬虫网络爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
通俗的讲: 就是模拟客户端发起网络请求,接收请求的响应,按照一定的规则,自动的抓取互联网信息的程序。
原则上只要浏览器能够做的事情,爬虫都能够实现。

爬虫的基本原理:

我们把互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的连接我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可以被我们获取下来了。

爬虫的用途

网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.

  • 通用爬虫
    通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

第一步:抓取网页 搜索引擎网络爬虫的基本工作流程如下:

搜索引擎如何获取一个新网站的URL的途径和方式:

Robots协议:

例如:
淘宝网:https://www.taobao.com/robots.txt
腾讯网: http://www.qq.com/robots.txt

User-agent: Baiduspider(识别是哪家的爬虫)
Allow: /article (允许爬取的目录)
Allow: /oshtml
Allow: /ershou
Allow: /$
Disallow: /product/ (不允许爬取的目录)
Disallow: /

第二步:数据存储 搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。 搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理
搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

第四步:提供检索服务,网站排名
搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。

七层协议

目的:

浏览器发送HTTP请求的过程:

上一篇 下一篇

猜你喜欢

热点阅读