大数据 爬虫Python AI SqlPython3自学 爬虫实战Python

大数据学习笔记之爬虫系列(1)----爬虫简介

2018-10-28  本文已影响44人  SofiyaJ

什么是爬虫?

顾名思义,爬虫,可以将互联网理解成一张巨大的网,我们编写出一个爬虫程序,是创造出一只有明确需求的蜘蛛,从而在这张大网上爬行,抓取到我们所需要的网络资源。

请求网站并提取数据的自动化程序

爬虫爬的是什么?

网页的源代码。
获取网页的源代码最直接的途径:

当然,当我们取大型网站的时候,还会有很多后期网页通过JS渲染的资源。

有些时候,我们抓取的网页成分和实际的不一样,这个时候就要用特定的方法解析JS:

解决渲染问题.png

我们写爬虫程序,最终得到的数据即为这些特定的网页元素。

宏观上说,我们可以抓的资源有以下四类:


可以抓取的数据.png

爬虫的基本流程

爬虫的基本流程.png

如上图所示,爬虫的基本流程分为4部:

Request 和Response 浅析

request and response.png

Request的主要组成部分

request.png

Response的主要组成部分

response.png

爬到数据的解析方式

解析方式.png

爬到数据的存储

保存数据.png

以上就是爬虫所涉及的框架元素。

上一篇 下一篇

猜你喜欢

热点阅读