python爬虫框架Scrapy:股票数据爬取
2019-03-16 本文已影响63人
9ba4bd5525b9
原理分析
Scrapy框架如下图所示:
我们主要进行两步操作:
(1) 首先需要在框架中编写一个爬虫程序spider,用于链接爬取和页面解析;
(2) 编写pipelines,用于处理解析后的股票数据并将这些数据存储到文件中。
代码编写
步骤:
(1) 建立一个工程生成Spider模板
打开cmd命令行,定位到项目所放的路径,输入:scrapy startproject BaiduStocks,此时会在目录中新建一个名字为BaiduStocks的工程。再输入:cd BaiduStocks进入目录,接着输入:scrapy genspider stocks baidu.com生成一个爬虫。之后我们可以在spiders/目录下看到一个stocks.py文件,如下图所示:
(2) 编写Spider:配置stocks.py文件,修改返回页面的处理,修改对新增URL爬取请求的处理
打开stocks.py文件,代码如下所示:
将上述代码修改如下:
(3) 配置pipelines.py文件,定义爬取项(Scraped Item)的处理类
打开pipelinse.py文件,如下图所示:
对上述代码修改如下:
(4) 修改settings.py,是框架找到我们在pipelinse.py中写的类
在settings.py中加入:
到这里,程序就完成了。
(4) 执行程序
在命令行中输入:scrapy crawl stocks