python 爬虫 思维
2018-05-04 本文已影响0人
任我笑笑
url
https://www.bilibili.com/video/av12721444
这视频老师还真是有当网红老师的潜质
重在讲思路
先查看源代码中是否还有需要的信息,如果没有
利用chrome来对js加载的url进行跟踪,分析
image.png
120分钟之后都是多余。。。。
反爬
-
最基本的做法就是添加user-agent
用的还是python2的urllib2
image.png -
对多线程的爬虫,可以为每个线程配置自己的user-agent,可以搜“user-agent 大全”
(当然,以前觉得还是找代理服务器伪装下ip比较好)
headers()是自定义的随机取一个user-agent出来
image.png
拿到json进行处理
执行之后取出要用的json 因为是gbk的,所以要decode('gbk').encode('utf-8')
把json转成dict
from json import loads
loads(xxxx)
分析url,拼接url
image.png