大数据爬虫Python AI Sql python学习我爱编程

最火爆的python爬虫scrapy框架项目实战，带你走进scr

2018-11-18 本文已影响3人小天真_5eeb

我们前面学习的基础爬虫的功能也是非常强大的，几乎可以处理所有想要收集的数据，那我们为什么还要学习现在最火爆的爬虫scrapy框架呢？因为基础爬虫有一点不好的地方，就是基础重复的代码量太多了，这样就显得过于繁杂了，而scrapy把一些不是很关键的部分代码封装成了框架，这样我们就不用写那些次要的代码了，只着重我们要处理数据的那一部分重点代码就可以实现功能了

1.创建爬虫项目文件夹

两种方式：

第一种：没有安装了pycharm软件的朋友，可以按【win】+R 键进入window运行终端有页面，具体命令操作也与第二种一样，这里不详讲了，用这种方法的朋友请看第二种方法的具体操作。

第二种：安装了pycharm软件的朋友，可以直接进入终端Terminal的命令下，比如笔者的终端如下图所示，并且我在D:�.PCshizhan的目录下，也就是说，我创建的爬虫项目文件夹就在D:�.PCshizhan的目录下。

（1）创建爬虫项目的命令是：scrapy startproject 自定义项目的名称，比如笔者创建的项目名为myxml。

（2）如上图出现的字样，代表创建项目myxml成功，其项目目录情况如下图所示：

2.设置items.py文件

我刚整理了一套2018最新的0基础入门和进阶教程，无私分享，加Python学习q u n ：227-435-450即可获取，内附：开发工具和安装包，以及系统学习路线图

items文件有什么用处呢？items主要用于设置要提取的内容结构，例如我们要提取【标题】+【链接】+【作者】这三个信息，可以对items文件进行修改，如下图：

（1）还没修改前默认的代码情况：

（2）进行修改后的代码：（在pass的位置按照别人的提示进行自定义修改）

3.创建爬虫文件（作用相当于c语言中的main函数的作用）

注意：在这一步要先进入到刚刚创建的项目文件夹目录下，才可以创建爬虫文件

进入myxml目录下

（1）先查看有什么类型的爬虫文件：输入命令：scrapy genspider -l（L小写），如下图，类型有：basic、crawl、csvfeed、xmlfeed四种类型。

（2）我们选择xmlfeed类型来创建爬虫文件，名称自定义为myxmlspider，创建爬虫文件的格式：scrapy genspider -t 类型爬虫文件名域名(域名可以为百度或者其他都行)，如下图所示：

如图所示已创建成功，其所在位置如下图所示：可以在spiders目录下找到爬虫文件myxmlspider

（3）创建爬虫文件成功之后，就要进行代码编写或者说修改了：

还没有修改前的爬虫文件myxmlspider代码如下：

进行修改之后，实现我们要爬取的数据信息如下：

到这里，所有的代码都修改好了，下面要启动爬虫了。

4.启动运行爬虫得出结果：

格式：scrapy crawl 爬虫文件名 --nolog

如下图所示，运行结果已经打印出来了：（部分结果截图）

今天的内容到此就结束了，学会了这一篇scrapy实例、熟记和理解我所说的几个scrapy项目的

上一篇下一篇

猜你喜欢

热点阅读