Scrapy入门

2019-01-06 本文已影响0人 Taoqi思

Scrapy架构图(绿线是数据流向)

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

制作 Scrapy 爬虫一共需要4步：

1.新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目

scrapy startproject mySpider

scrapy.cfg: 项目的配置文件。
mySpider/: 项目的Python模块，将会从这里引用代码。
mySpider/items.py: 项目的目标文件。
mySpider/pipelines.py: 项目的管道文件。
mySpider/settings.py: 项目的设置文件。
mySpider/spiders/: 存储爬虫代码目录。```

2.明确目标（编写items.py）：明确你想要抓取的目标

1.打开 mySpider 目录下的 items.py。

2.Item 定义结构化数据字段，用来保存爬取到的数据，有点像 Python 中的 dict，但是提供了一些额外的保护减少错误。

3.可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个 Item（可以理解成类似于 ORM 的映射关系）

    import scrapy

    class ItcastItem(scrapy.Item):
       name = scrapy.Field()
       title = scrapy.Field()
       info = scrapy.Field()

3.制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页

(1) 在当前目录下输入命令，将在mySpider/spider目录下创建一个名为itcast的爬虫，并指定爬取域的范围：

scrapy genspider YingShi "66ys.tv"

YingShi 项目名字
66ys.tv 网址域名
(2) 打开 mySpider/spider目录里的 itcast.py.然后增加代码

4.存储内容（pipelines.py）：

scrapy保存信息的最简单的方法主要有四种，-o 输出指定格式的文件，命令如下：

scrapy crawl itcast -o teachers.json

json lines格式，默认为Unicode编码

scrapy crawl itcast -o teachers.jsonl

csv 逗号表达式，可用Excel打开

scrapy crawl itcast -o teachers.csv

xml格式

scrapy crawl itcast -o teachers.xml

Scrapy入门

Scrapy架构图(绿线是数据流向)

制作 Scrapy 爬虫一共需要4步：

1.新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目

2.明确目标（编写items.py）：明确你想要抓取的目标

3.制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页

4.存储内容（pipelines.py）：

猜你喜欢

热点阅读

Scrapy入门

Scrapy架构图(绿线是数据流向)

制作 Scrapy 爬虫 一共需要4步：

1.新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目

2.明确目标 （编写items.py）：明确你想要抓取的目标

3.制作爬虫 （spiders/xxspider.py）：制作爬虫开始爬取网页

4.存储内容 （pipelines.py）：

猜你喜欢

热点阅读

制作 Scrapy 爬虫一共需要4步：

2.明确目标（编写items.py）：明确你想要抓取的目标

3.制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页

4.存储内容（pipelines.py）：