08_知乎
2017-06-02 本文已影响252人
过桥
简述
本节继续实现知乎关注对象用户信息,主要使用 json
解析,cookie
模拟等手段实现。
目标对象
依旧是知乎轮子哥关注对象
使用包
import codecs
import json
import time, os #定时抓取
import requests
import datetime #精确时间
主要实现方式

通过抓包分析,确定目标json
,尝试直接抓取,返回封装错误
{'error': {'message': '请求头或参数封装错误', 'code': 100, 'name': 'AuthenticationInvalidRequest'}}
尝试直接使用已登录cookie
抓取
cookies = {}
raw_cookies = '自己的key,可通过F12浏览器,查看替换'
for line in raw_cookies.split(':'):
key,value = line.split('=', 1)
cookies[key] = value
def download_page(url):
return requests.get(url,cookies=cookies, headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}, timeout=120).json()
返回json
解析

总结
本次实现过程中主要涉及cookie
模拟(还可扩展自行实现模拟登录,获取cookie
),其他递归操作、文件输出、图片另存均于之前示例一致,只能算简单复习。
