Python3Python网络爬虫与信息提取

(六)Scrapy爬虫框架的认识(读书笔记)|Python网络爬

2018-01-22  本文已影响139人  努力奋斗的durian

1.Scrapy爬虫框架介绍
2.Scrapy爬虫框架解析
3.requests库和Scrapy爬虫比较
4.Scrapy爬虫的常用命令
5.单元小结

网页链接【Python网络爬虫与信息提取】.MOOC. 北京理工大学
https://www.bilibili.com/video/av9784617/?from=search&seid=10703466871670873351#page=51

最近更新:2018-01-22

1.Scrapy爬虫框架介绍

1.1scrapy的安装


注意:

1.2scrapy爬虫框架结构

1.2.1爬虫框架

scrapy不是一个函数功能库,而是一个爬虫框架


1.2.2"5+2"结构
2018-01-22_151301.png

3)第三条数据流途径(7-8),如下截图
a )从SPIDERS模块经过ENGINE模块到达ITEM PIPELINES模块.以及SCHEDULER模块.
b )SPIDERS处理从DOWNLOADER获得的响应,也就是从网络当中爬取了相关的内容.处理之后产生了两种数据类型,一个数据类型是爬取项,叫srcpyitems,也叫items.另外一个是新的爬取请求,也就是说从网上获得一个网页之后,如果网页有其他的链接,也是我们十分感兴趣的,可以在SPIDERS之间增加相关的功能,对新的链接再次发生爬取.
c )SPIDERS生成这两种数据类型之后,将它们发送给ENGINE模块,ENGINE模块收到两类数据之后,将items发送给ITEM PIPELINES模块.
d )将其中的requests发送给SCHEDULER模块进行调度.从而为后续的处理,以及再次启动网络爬虫请求,提供了新的数据来源.


1.2.3爬虫框架汇总

2.Scrapy爬虫框架解析

有5个模块加2个中间键


2.1Engline模块

2.2Downloader模块

2.3Scheduler模块

2.4Engline模块,Downloader模块,Scheduler模块汇总

2.5Downloader Middleware

2.6spider

2.7Item Pipelines

2.8Spider Middleware中间键

2.9Scrapy爬出框架知识汇总

3.requests库和Scrapy爬虫比较

3.1requests vs. Scrapy相同点

都是重要的第三方爬虫库,如果都是网站存在验证码都是无法应对,因此需要扩展新的库.


3.2requests vs. Scrapy不同点

3.3两个库的选择

4.Scrapy爬虫的常用命令

4.1Scrapy命令行

4.2Scrapy命令行格式

4.3Scrapy爬虫的命令行逻辑

Scrapy不是给用户操作使用的,更多是后台的爬虫框架.对于程序而言,更关心的是一个个的指令.通过命令行,程序就可以通过程序进行接收.只有用户才会关心图像界面.


4.单元小结

上一篇 下一篇

猜你喜欢

热点阅读