国家统计局爬取数据练手(以GDP为例)
2020-05-24 本文已影响0人
湫兮_舞
第一步:确定目标地址
国家统计统计局网址:http://data.stats.gov.cn/easyquery.htm?cn=C01
1.1 找的国内生产总值,即需要爬取的数据
![](https://img.haomeiwen.com/i22430856/fce2c9cbdc693b62.png)
1.2 鼠标右击--->检查网页源代码--->在网页源代码中查找是否存在我们需要的数据(Ctrl+F,在查找框中输入要查找的数据)
![](https://img.haomeiwen.com/i22430856/15efe00484e5634a.png)
由此可以判断,我们需要的数据并不是直接在HTML页面中(数据是动态加载的,即url并不是地址栏中的地址),所以我们需要去判断谁是真正的url
1.3 按F12
![](https://img.haomeiwen.com/i22430856/726a9e0455df2162.png)
选中Network---->XHR(动态数据都会在这里面)---->重新刷新页面---->在开发者界面中找到我们的数据包
![](https://img.haomeiwen.com/i22430856/0a5f6ac1e791dc2d.png)
在数据包中的Headers部分找到Request URL (这就是我们所需要的URL)
![](https://img.haomeiwen.com/i22430856/1c21aa2b48de1445.png)
第二步:获得数据
通过python中requests库,模拟浏览器发起请求,获得我们所需要的数据包(其中包含我们所需要的数据)
![](https://img.haomeiwen.com/i22430856/aec7f892829bae44.png)
第三步:解析数据
本次爬虫解析数据的方式比较基础,通过定位+循环的方式即可获得数据
![](https://img.haomeiwen.com/i22430856/95b84cfc845ffae3.png)
![](https://img.haomeiwen.com/i22430856/7058d18215ca5582.png)
第四步:保存数据
通过python的csv模块,保存数据,即可,代码如上
第五步:欣赏实验结果
![](https://img.haomeiwen.com/i22430856/1db55113bf3da470.png)
![](https://img.haomeiwen.com/i22430856/b58415fe2e1c8dee.png)