Scrapy
2019-01-08 本文已影响0人
錦魚
pip3 install Scrapy
1.创建项目
- scrapy startproject chinaz
2.进入到spiders文件夹下,创建爬虫文件
- scrapy genspider 爬虫文件名称 网站的域
3.使用pycharm打开文件
scrapy项目的架构
外层有
chinaz:项目文件夹
spiders:爬虫文件(存放所有的爬虫文件)
zzw.py:爬虫文件(解析Response响应,提取目标数据与url)
items.py:编写要趴取得字段
middlewares.py:中间件(爬虫中间件,下载中间件)
pipelines.py:数据管道(在这里做数据持有化)
settings.py:预制文件(设置请求头,设置下载延时,设置是否遵守roboot协议,激活管道文件....)
scrapy.cfg:配置文件(部署项目的时候会用到)