小白白用python POST模拟登录百度
2016-08-19 本文已影响0人
bbjoe
我的结果
只是登录成功而已我的代码(模仿对象:单行道)
# -*- coding: utf-8 -*-
import requests
import re
from lxml import etree
def login_baidu(user, password):
# get之后获得cookies
session.get('http://www.baidu.com')
session.get('https://passport.baidu.com/v2/api/?login')
# 带着cookies访问,获取token
token_data = session.get('https://passport.baidu.com/v2/api/?getapi&tpl=mn&apiver=v3').text
token = re.findall(r'"token" : "(.*?)"', token_data)[0]
print(token)
# 构造headers
headers = {
'Host': 'passport.baidu.com',
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36",
'Content-Type': 'application/x-www-form-urlencoded',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'h-CN,zh;q=0.8,en;q=0.6'
}
# 构造POST data
data = {
'staticpage': 'https://www.baidu.com/cache/user/html/v3Jump.html',
'charset': 'utf-8',
'token': token,
'tpl': 'mn',
'apiver': 'v3',
'tt': '1471614939403',
'safeflg': '0',
'u': 'https://www.baidu.com/',
'isPhone': 'false',
'quick_user': '0',
'loginmerge': 'true',
'logintype': 'dialogLogin',
'username': user,
'password': password,
'ppui_logintime': '4173',
'callback': 'parent.bd__pcbs__nmm7i5'
}
login = session.post('https://passport.baidu.com/v2/api/?login', data=data, headers=headers)
if 'BDUSS' in session.cookies:
print("登录成功")
else:
print("登录失败")
web_data = session.get('http://www.baidu.com').text
page = etree.HTML(web_data)
my_name = page.xpath(u'//span[@class="user-name"]/text()')
print(my_name)
if __name__ == '__main__':
# 构造一个会话,用来跨请求保存cookie
session = requests.Session()
user = '用户名'
password = '密码'
login_baidu(user, password)
我的理解
以我目前非常浅薄的经验和知识,模拟登录其实是:
- 找到登录地址(https://passport.baidu.com/v2/api/?login)
- 拼凑登录data
- 获取data里面不能直接复制,同时又不可或缺的部分,此例中只有token
- token来自于一个地址(https://passport.baidu.com/v2/api/?getapi&tpl=mn&apiver=v3)
-
这个地址截取自于一个js地址(我只是觉得能短则短)
神秘的JS
这个js地址是个密,我也不清楚我是怎么发现的。对,我还没有正式学会分析网页登陆过程。
- 在python中访问这个地址,从页面内容中用正则提取出token的部分。
- 对了,必须要带着cookies访问这个地址才能正常出现token,否则不能。
- 怎么“带着cookies”呢,在访问js之前,先get一下登陆地址和百度首页(非要两个同时吗?我也不知)
- 好,现在有token了,可以拼装data了
-
data的剩余部分和headers的都来自一个访问方式为POST的doc文件
POST doc - 带上上面的headers、data放进
login = session.post('https://passport.baidu.com/v2/api/?login', data=data, headers=headers)
里面 - 最后通过cookies来验证是否访问成功
- 顺便我又get了一下首页,解析出了我的用户名
我的感想
模拟登陆是一门技术活,我刚刚才开始。