(技术)Scrapy 安装与项目的创建
2019-12-20 本文已影响0人
点映文艺
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。## ## Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
既然Scrapy是基于Python开发的,那么想耍Scrapy自然少不了Python开发环境,如何安装Python开发环境?不教!!
Python开发环境安装成功之后,检查一下版本
1.png
Python开发环境中带有pip 和 pip3,为啥要提pip3,因为安装Scrapy需要通过pip3工具
2.png
安装 Scrapy
3.png
至此Scrapy 安装成功
Scrapy创建爬虫项目
4.png
通过PyCharm打开项目,目录结构如下
5.png
创建spiders目录下的爬虫文件,首先切换到spiders目录下
6.png
scrapy genspider 应用名称 爬取网页的起始url
创建 demo.py 爬虫文件后,目录结构如下
7.png
启动爬虫
8.png
特别说明:
如果你的命令行窗口没有打印出如上结果原因在这里:setting.py # ROBOTSTXT_OBEY = False
接下来就该四步走了
第1步:编写items.py (设置数据存储模板,定义数据属性)
第2步:编写spiders下的 demo.py 文件 (编写爬虫解析规则)
第3步:编写pipelines.py文件 (管道文件。接收数据(items),进行持久化操作,爬虫文件爬取到数据后,需要将数据封装到
items对象中。使用yield关键字将items对象提交给pipelines管道进行持久化操作。settings.py配置文件中开启管道)
第4步:打开settings.py 文件更改配置 (配置文件,如:递归的层数、并发数,延迟下载等)