小爬虫之爬取淘宝MM
2018-01-23 本文已影响223人
J_101
1.技术路线
- python3
- urllib
- re
- mysql
- sqlyog
2.目标
爬取淘女郎的MM信息
3.分析
- 网站:https://mm.taobao.com/search_tstar_model.htm
-
分析页面数据
目标是异步加载的数据 -
确定异步请求链接
-
查看请求响应
JSON
个人主页 -
我们发现基本信息是异步渲染的
注意
- URL组成
- 通过主页找到异步请求,这才是我们真真需要的请求URL,通过个人页面URL:
https://mm.taobao.com/self/info/model_info_show.htm?user_id=176817195- 可以发现请求参数是MMID
- 爬取目标
1.MMID
2.姓名
3.体重
4.城市
5.职业
6.风格
7.头像
8.写真
4.运行结果
保存的图片 数据库5.源码
- GitHub
- 欢迎Fork,一起讨论学习
作者:Jasonhaven.D
链接:http://www.jianshu.com/u/ed031e432b82
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。