python3 爬虫工作原理

2020-04-24 本文已影响0人 python攻城狮

网络爬虫我们一般简称为爬虫或者蜘蛛，它是一个自动抓取网络信息的程序或代码脚本。
如果我们把互联网看成一张巨大的蜘蛛网，上面链接着各种各样的网页数据，爬虫就像蜘蛛一样顺着网线去抓取我们想要的信息。

我们一般的上网行为可以简单的归纳为：打开浏览器 → 输入网址 → 服务器收到请求 → 返回数据给浏览器 → 浏览器对数据进行解析，展示给浏览者

上网行为

而爬虫爬取数据的行为也与之非常类似，并且具有处理数据和保存数据的功能：

爬虫原理示意图

爬虫获取的数据的工作原理步骤可以分为：