中南财大的校园卡消费数据爬虫

2018-06-23 本文已影响0人不定期抽疯

一

如果想统计下自己、专业或者班级的同学的校园卡消费数据，校园卡一卡通网站同样也提供了相应的方法，可以写一篇关于自己或者一群人的消费分析情况，这对财大人来讲难度不大。

此文的爬取方法在中南财大的校园一卡通头像获取之后

登录之后选择校园卡服务里的流水查询。

流水查询界面.png

点了导出2018-06的流水以后，显示

下载请求.png

仔细观察可以发现存在2018-06的时间，但如果直接用之前的数据请求的话结果会失败，原因是cookie相对之前变化了

原cookie.png
因此需要找到使原先的cookie变化的链接，获取新的cookie，然后再行提交即可。

#coding=utf-8
import requests
import re
import json
import os
import xlrd
import time

r=requests.Session()
url=r'http://ecard.zuel.edu.cn/Login.aspx'
headers = { 
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
        "Referer":"http://ecard.zuel.edu.cn/Login.aspx",
        "Origin":"http://ecard.zuel.edu.cn",
        "Host":"ecard.zuel.edu.cn",
                }

def zhengze(patt,htm):
            hh=re.compile(patt)
            ll=re.findall(hh,htm)
            return ll

html=r.get(url,headers=headers)
first_con=html.content.decode('utf-8')
pattern=r'id="__VIEWSTATE" value="(.+?)"'
code=zhengze(pattern,first_con)[0]
data={
        '__VIEWSTATE':code,
        'loginType':'sno',
        'loginId':id,
        'loginPwd':pwd
        }
sec_con=r.post(url,headers=headers,data=data)

之后获取POST中所需提交的accquary码

获取新的cookie，经过观察可以发现新cookie是在这条链接里产生的，但之后的sk又是什么鬼，对着之前的请求可以在原cookie中找到。

image.png

现在可以整理下思路就是

1. 获取post所需的accquary值

2. 提取原cookie中的sk，生成新的链接

3. 得到新的cookie

4. post提交并下载数据

下面提供代码：

获取accquary值

#get sno
sno_url=r'http://ecard.zuel.edu.cn/Account/Operator.ashx?cmd=getaccbysno'
row_sno=r.post(sno_url,headers=headers).content.decode('utf-8')
r_sno=json.loads(row_sno)
sno=r_sno[0]['ACCOUNT']

获取原cookie中的sk

new_cookie=sec_con.cookies
for each in new_cookie:
            row_sk=each.value
pat_sk='sk=(.+?)&ident'
sk=zhengze(pat_sk,row_sk)[0]

获取新的链接后，生成新cookie

cook_url=r'http://10.175.195.21/acchistrjn.action?sk='+sk
cook=r.get(cook_url,headers=headers)

获取xls文件

date_list=['2017-12','2018-01','2018-02']
for date in date_list:
            rp_url=r'http://10.175.195.21/gettrjndataList.action'
            rp_d={
                    'page':'1',
                    'rp':'10',
                    'sortname':'jndatetime',
                    'sortorder':'desc',
                    'query':'',
                    'qtype':'',
                    'accquary':sno,
                    'trjnquary':date
                    }
            row_rp=r.post(rp_url,headers=headers,data=rp_d).content.decode('utf-8')
            rp=zhengze(r'"total":(\d+?),',row_rp)[0]

            ex_url=r'http://10.175.195.21/exportThetrjn.action?isall=all&accquary='+sno+'&trjnquary='+date+'&rp='+rp+'&page=1'
            excel_con=r.get(ex_url,headers=headers).content
            #print (excel_con)
            open(date+'.xls', 'wb').write(excel_con)

最后

由于下载下来的文件是分开的

image.png
因此，需要整合的一起的话，可以参考合并Excel表.