python爬虫框架Scrapy:股票数据爬取

2019-03-16 本文已影响63人 9ba4bd5525b9

原理分析

Scrapy框架如下图所示：

我们主要进行两步操作：

（1）首先需要在框架中编写一个爬虫程序spider,用于链接爬取和页面解析；

（2）编写pipelines，用于处理解析后的股票数据并将这些数据存储到文件中。

代码编写

步骤：

（1）建立一个工程生成Spider模板

打开cmd命令行，定位到项目所放的路径，输入：scrapy startproject BaiduStocks，此时会在目录中新建一个名字为BaiduStocks的工程。再输入：cd BaiduStocks进入目录，接着输入：scrapy genspider stocks baidu.com生成一个爬虫。之后我们可以在spiders/目录下看到一个stocks.py文件，如下图所示：