最火爆的python爬虫scrapy框架项目实战,带你走进scr
我们前面学习的基础爬虫的功能也是非常强大的,几乎可以处理所有想要收集的数据,那我们为什么还要学习现在最火爆的爬虫scrapy框架呢?因为基础爬虫有一点不好的地方,就是基础重复的代码量太多了,这样就显得过于繁杂了,而scrapy把一些不是很关键的部分代码封装成了框架,这样我们就不用写那些次要的代码了,只着重我们要处理数据的那一部分重点代码就可以实现功能了
1.创建爬虫项目文件夹
两种方式:
第一种:没有安装了pycharm软件的朋友,可以按【win】+R 键进入window运行终端有页面,具体命令操作也与第二种一样,这里不详讲了,用这种方法的朋友请看第二种方法的具体操作。
第二种:安装了pycharm软件的朋友,可以直接进入终端Terminal的命令下,比如笔者的终端如下图所示,并且我在D:�.PCshizhan的目录下,也就是说,我创建的爬虫项目文件夹就在D:�.PCshizhan的目录下。
(1)创建爬虫项目的命令是:scrapy startproject 自定义项目的名称,比如笔者创建的项目名为myxml。
(2)如上图出现的字样,代表创建项目myxml成功,其项目目录情况如下图所示:
2.设置items.py文件
我刚整理了一套2018最新的0基础入门和进阶教程,无私分享,加Python学习q u n :227-435-450即可获取,内附:开发工具和安装包,以及系统学习路线图
items文件有什么用处呢?items主要用于设置要提取的内容结构,例如我们要提取【标题】+【链接】+【作者】这三个信息,可以对items文件进行修改,如下图:
(1)还没修改前默认的代码情况:
(2)进行修改后的代码:(在pass的位置按照别人的提示进行自定义修改)
3.创建爬虫文件(作用相当于c语言中的main函数的作用)
注意:在这一步要先进入到刚刚创建的项目文件夹目录下,才可以创建爬虫文件
进入myxml目录下
(1)先查看有什么类型的爬虫文件:输入命令:scrapy genspider -l(L小写),如下图,类型有:basic、crawl、csvfeed、xmlfeed四种类型。
(2)我们选择xmlfeed类型来创建爬虫文件,名称自定义为myxmlspider,创建爬虫文件的格式:scrapy genspider -t 类型 爬虫文件名 域名(域名可以为百度或者其他都行),如下图所示:
如图所示已创建成功,其所在位置如下图所示:可以在spiders目录下找到爬虫文件myxmlspider
(3)创建爬虫文件成功之后,就要进行代码编写或者说修改了:
还没有修改前的爬虫文件myxmlspider代码如下:
进行修改之后,实现我们要爬取的数据信息如下:
到这里,所有的代码都修改好了,下面要启动爬虫了。
4.启动运行爬虫得出结果:
格式:scrapy crawl 爬虫文件名 --nolog
如下图所示,运行结果已经打印出来了:(部分结果截图)
今天的内容到此就结束了,学会了这一篇scrapy实例、熟记和理解我所说的几个scrapy项目的