软件开发好文选虫虫

python爬虫框架Scrapy:股票数据爬取

2019-03-16  本文已影响63人  9ba4bd5525b9

原理分析

Scrapy框架如下图所示:

我们主要进行两步操作:

(1) 首先需要在框架中编写一个爬虫程序spider,用于链接爬取和页面解析;

(2) 编写pipelines,用于处理解析后的股票数据并将这些数据存储到文件中。

代码编写

步骤:

(1) 建立一个工程生成Spider模板

打开cmd命令行,定位到项目所放的路径,输入:scrapy startproject BaiduStocks,此时会在目录中新建一个名字为BaiduStocks的工程。再输入:cd BaiduStocks进入目录,接着输入:scrapy genspider stocks baidu.com生成一个爬虫。之后我们可以在spiders/目录下看到一个stocks.py文件,如下图所示:

(2) 编写Spider:配置stocks.py文件,修改返回页面的处理,修改对新增URL爬取请求的处理

打开stocks.py文件,代码如下所示:

将上述代码修改如下:

(3) 配置pipelines.py文件,定义爬取项(Scraped Item)的处理类

打开pipelinse.py文件,如下图所示:

对上述代码修改如下:

(4) 修改settings.py,是框架找到我们在pipelinse.py中写的类

在settings.py中加入:

到这里,程序就完成了。

(4) 执行程序

在命令行中输入:scrapy crawl stocks

上一篇 下一篇

猜你喜欢

热点阅读