python爬虫小实战-每日一练#基金网站爬取
2022-07-27 本文已影响0人
极致简洁
今日无聊,于是决定重拾爬虫,作为日常娱乐。
最近新能源比较火,所以决定看看基金行情如何,脑海中想到的第一个网站是天天基金网,那么我们打开这个网站看看能否爬点近期的基金情况作为数据分析。
打开天天基金第一眼看到的是这个列表展示,扫了扫,于是决定今日小任务就是来抓取下这个表单数据。
![](https://img.haomeiwen.com/i7881461/9a636f425cab6a3e.png)
作为一个菜鸟虫虫,咱们思路得清晰,先分析下后台接口情况。方法很简单,按下F12打开浏览器自带的调试工具,然后点击网页上的翻页按钮,抓取下日志瞅瞅。
chrome浏览器抓包
后台交互很简单,点击preview看下情况。Good!这个圈圈中的请求应该就是我们想要爬取的表单,这个网站反爬机制几乎为零啊。接下来我们进行下一步工作,分析下接口参数。
![](https://img.haomeiwen.com/i7881461/7cd925ceaf07fc15.png)
首先是Headers,get请求+params,一目了然。嗯,估摸着这是从思想上已经放弃抵抗的网站,翻页的参数就在链接中,裸奔状态。
![](https://img.haomeiwen.com/i7881461/c5159f92fffc2a56.png)
O(∩_∩)O,回到调试工具看看参数名字
http://fund.eastmoney.com/Data/Fund_JJJZ_Data.aspx?t=1&lx=1&letter=&gsid=&text=&sort=zdf,desc&page=2,200&dt=1658849281992&atfc=&onlySale=0
![](https://img.haomeiwen.com/i7881461/b42d6d873a2975b9.png)
英语四六级证书告诉我,page就是翻页,sort就是排序,dt一看就知道是datetime~那么我们来用postman模拟下请求走一遍。
![](https://img.haomeiwen.com/i7881461/34c0a970296e2ba6.png)