python

国家统计局爬取数据练手(以GDP为例)

2020-05-24  本文已影响0人  湫兮_舞

第一步:确定目标地址

国家统计统计局网址:http://data.stats.gov.cn/easyquery.htm?cn=C01

1.1    找的国内生产总值,即需要爬取的数据

1.2     鼠标右击--->检查网页源代码--->在网页源代码中查找是否存在我们需要的数据(Ctrl+F,在查找框中输入要查找的数据)

由此可以判断,我们需要的数据并不是直接在HTML页面中(数据是动态加载的,即url并不是地址栏中的地址),所以我们需要去判断谁是真正的url

1.3    按F12


选中Network---->XHR(动态数据都会在这里面)---->重新刷新页面---->在开发者界面中找到我们的数据包

在数据包中的Headers部分找到Request URL (这就是我们所需要的URL)

第二步:获得数据

通过python中requests库,模拟浏览器发起请求,获得我们所需要的数据包(其中包含我们所需要的数据)

第三步:解析数据

本次爬虫解析数据的方式比较基础,通过定位+循环的方式即可获得数据

第四步:保存数据

通过python的csv模块,保存数据,即可,代码如上

第五步:欣赏实验结果

源代码 结果
上一篇 下一篇

猜你喜欢

热点阅读