数据采集-喜马拉雅
2017-07-23 本文已影响62人
南极有条沙丁鱼
- 以喜马拉雅节目分类为入口,分析网站结构
首先爬取喜马拉雅的所有分类的链接和类别名
- 获取每个分类的页面后获取每个分类下面的所有节目的的相关内容
每个类别下面的所有节目.png
每个类别的节目都是用分页形式来展示,所有构建页码,通过获取每个分类下最多分多少页,来构建每个分页面的的url链接,再通过链接地址获取相应分页的页面
分页页面url示例.png
- 获取每个节目中的信息,例如音频id
对比.png
未完。。。
每个类别下面的所有节目.png
每个类别的节目都是用分页形式来展示,所有构建页码,通过获取每个分类下最多分多少页,来构建每个分页面的的url链接,再通过链接地址获取相应分页的页面
分页页面url示例.png
未完。。。