python自学ScrapyPython

[学习Scrapy 1]如何新建一个Scrapy项目?

2018-04-11  本文已影响7人  苦逼李

本文讲解如何新建一个Scrapy项目,并且简要介绍Scrapy项目的文件结构。

1.新建虚拟环境

安装好virtualenv包。打开命令行进入要保存虚拟环境的文件夹下,比方:D:\Python,进入路径,输入virtualenv Text_Spider创建虚拟环境。然后进入虚拟环境下的Scripts文件夹,输入activate命令,此时如果出现以你命名的虚拟环境名为首的提示串则说明成功进入了虚拟环境,如果要退出虚拟环境,则输入:deactivate。如下图展示了进入虚拟环境后的交互界面。

2.新建Scrapy项目

保证虚拟环境中安装好Scrapy包后我们开始新建Scrapy项目,在cmd中进入你想要保存scrapy项目的文件夹,我这里选择的是(自定义):(Text_Spider) D:\Python\Test,需要注意的是,此时你仍然在虚拟环境下。然后继续输入以下命令:(Text_Spider) D:\Python\Test>scrapy startproject Test,其中,前两个字符串是不能改的,最后一个字符串是项目名(可以自定义),这串命令表示我在Test文件夹下新建了一个以个Test项目,这个项目是运行在虚拟环境(Text_Spider)中的。

上图是新建项目后的交互界面。

接下来通过Pycharm打开项目文件,此时可以看到Scrapy项目的文件结构了。

新建好Scrapy项目还没有完,此时项目中还没有爬虫文件,下面我以爬取伯乐在线网站为例展示如何新建爬虫(Spider)文件。

回到命令行,进入到项目文件夹下(注意这里必须是进入到项目文件夹中),然后输入:scrapy genspider article_spider http://blog.jobbole.com/,其中前两个字符串表示新建spider文件,第三个字符串是自定义的spider文件名,最后一个字符串是你想爬取的网站。回车之后,出现下面的提示信息说明成功。(请自动忽略尴尬的路径名...)

此时再查看Pycharm,看到新建的文件出现在Scrapy文件目录下,终于搞定了~

3.Scrapy项目的文件结构

上图中就是一个完整的Scrapy项目的文件结构,红线标识的就是爬虫文件,这里写爬取网站的逻辑。items文件中定义数据保存的格式。middlewares文件使得Scrapy能够更可控。settings文件包含了很多Scrapy的配置。pipline用于编写一些和数据存储相关的代码。

这里仅简单介绍Scrapy项目的文件结构,后面的文章中还会具体介绍。

上一篇 下一篇

猜你喜欢

热点阅读