（技术）Scrapy 安装与项目的创建

2019-12-20 本文已影响0人点映文艺

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。## ## Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试

既然Scrapy是基于Python开发的，那么想耍Scrapy自然少不了Python开发环境，如何安装Python开发环境？不教！！

Python开发环境安装成功之后，检查一下版本

1.png

Python开发环境中带有pip 和 pip3,为啥要提pip3，因为安装Scrapy需要通过pip3工具

2.png

安装 Scrapy

3.png

至此Scrapy 安装成功

Scrapy创建爬虫项目

4.png

通过PyCharm打开项目，目录结构如下

5.png

创建spiders目录下的爬虫文件，首先切换到spiders目录下

6.png

scrapy genspider 应用名称 爬取网页的起始url

创建 demo.py 爬虫文件后，目录结构如下

7.png

启动爬虫

8.png

特别说明:

如果你的命令行窗口没有打印出如上结果原因在这里：setting.py # ROBOTSTXT_OBEY = False

接下来就该四步走了

第1步：编写items.py （设置数据存储模板，定义数据属性）
第2步：编写spiders下的 demo.py 文件（编写爬虫解析规则）
第3步：编写pipelines.py文件（管道文件。接收数据（items），进行持久化操作,爬虫文件爬取到数据后，需要将数据封装到
items对象中。使用yield关键字将items对象提交给pipelines管道进行持久化操作。settings.py配置文件中开启管道）
第4步：打开settings.py 文件更改配置（配置文件，如：递归的层数、并发数，延迟下载等）