数据抓取与数据分析

python爬虫小实战-每日一练#基金网站爬取

2022-07-27 本文已影响0人极致简洁

今日无聊，于是决定重拾爬虫，作为日常娱乐。
最近新能源比较火，所以决定看看基金行情如何，脑海中想到的第一个网站是天天基金网，那么我们打开这个网站看看能否爬点近期的基金情况作为数据分析。

打开天天基金第一眼看到的是这个列表展示，扫了扫，于是决定今日小任务就是来抓取下这个表单数据。

天天基金的列表页

作为一个菜鸟虫虫，咱们思路得清晰，先分析下后台接口情况。方法很简单，按下F12打开浏览器自带的调试工具,然后点击网页上的翻页按钮，抓取下日志瞅瞅。

chrome浏览器抓包

后台交互很简单，点击preview看下情况。Good！这个圈圈中的请求应该就是我们想要爬取的表单，这个网站反爬机制几乎为零啊。接下来我们进行下一步工作，分析下接口参数。

请求详情

首先是Headers，get请求+params，一目了然。嗯，估摸着这是从思想上已经放弃抵抗的网站，翻页的参数就在链接中，裸奔状态。

Header

O(∩_∩)O，回到调试工具看看参数名字

http://fund.eastmoney.com/Data/Fund_JJJZ_Data.aspx?t=1&lx=1&letter=&gsid=&text=&sort=zdf,desc&page=2,200&dt=1658849281992&atfc=&onlySale=0

请求参数解析

英语四六级证书告诉我，page就是翻页，sort就是排序，dt一看就知道是datetime~那么我们来用postman模拟下请求走一遍。

Postman模拟

看到postman的返回码200。 OK，稳了~

待后续

上一篇下一篇

猜你喜欢

热点阅读