python 爬虫 思维

2018-05-04  本文已影响0人  任我笑笑

url

https://www.bilibili.com/video/av12721444
这视频老师还真是有当网红老师的潜质

重在讲思路

先查看源代码中是否还有需要的信息,如果没有
利用chrome来对js加载的url进行跟踪,分析


image.png

120分钟之后都是多余。。。。

反爬

  1. 最基本的做法就是添加user-agent
    用的还是python2的urllib2


    image.png
  2. 对多线程的爬虫,可以为每个线程配置自己的user-agent,可以搜“user-agent 大全”
    (当然,以前觉得还是找代理服务器伪装下ip比较好)

headers()是自定义的随机取一个user-agent出来


image.png

拿到json进行处理

执行之后取出要用的json 因为是gbk的,所以要decode('gbk').encode('utf-8')

把json转成dict
from json import loads
loads(xxxx)

image.png image.png

分析url,拼接url

image.png
上一篇下一篇

猜你喜欢

热点阅读