Scrapy框架步骤
2018-12-03 本文已影响0人
老夫愿闻其翔
简单了解一下Scrapy框架于操作步骤
什么是Scrapy框架呢?
scrapy是python下的数据爬取集框架,使用scrpay爬取数据,速度更快。并且可以很快的搭建爬取程序。
1.需求工具 pycharm 小说网的域名 (www.top.china.com)
第一步—–创建文件
scrapy startproject myspider
新建爬虫文件
scrapy genspider zzw china.com
第二步——将创建在桌面上的scrapy文件用pycharm打开:
这是创建成功后在pycharm中的显示
![](https://img.haomeiwen.com/i11875338/26ccf49771df7cf4.png)
新建爬虫文件
第三步——–编写爬虫代码
![](https://img.haomeiwen.com/i11875338/7afc857ea2d14297.png)
这个代码是你创建好文件以后里面就有
3.代码思路
1)请求导航条上的每个按钮对应的页面
2)分别解析每个页面的列表(主要获得网页的详情url)
3)请求详情url,解析网页的详细信息(周排名,反链接数,简介,网站排名,得分,网站图片地址)
4)根据下载地址下载到本地
找到列表页的url:
![](https://img.haomeiwen.com/i11875338/e83afdc6710178bf.png)
![](https://img.haomeiwen.com/i11875338/f0588e4bb7d67889.png)
第四步——设置item /与存储有关
将需要存储的信息写入,如图所示:
![](https://img.haomeiwen.com/i11875338/6575961ecd944c02.png)
第五步——配置pipelines/与储存有关
![](https://img.haomeiwen.com/i11875338/890e1ebe0850c76a.png)
第六步——在Terminal中输入运行命令
scrapy+crawl+爬虫名称