bilibili完结番剧分区数据抓取(第一
2018-08-08 本文已影响0人
Houtasu

想知道b站建站以来所有完结番剧分区下的视频播放数据么?想知道哪个番剧的收藏高,哪个的硬币数多么?本篇教程就叫你如何获取b站视频的数据。
https://github.com/HOUTASU/crawler_pycharm/blob/master/code/bilibili.py
上面就是b站完结分区的网页了。它在番剧大分区下。

可以看到每页有20个是视频信息。有up主,播放量,评论数等信息。然后一共有816页,那么就有16K+个视频了。
那么我们要分析这个网页,然后爬完这816个分页么?
并不!正常的爬虫思路确实是这样的。但是b站是个爬虫友好的网站,它提供的专门的爬虫接入接口。

https://zhuanlan.zhihu.com/p/35359905
感谢yxIIIc大佬提供的教程,以及uupers-b站爬虫项目组整理的b站接口的相关信息。不过yxIIIc大佬用的是Mathematica(MMA)做的爬取全站的视频数据,然而我并不会MMA,所以还以用python写吧。
https://github.com/uupers/BiliSpider/wiki
在这个网页右侧的[Bilibili API 二级分区视频分页数据(投稿时间逆序)]链接中,我们可以看到b站视频数据接口的信息。它是一个json文件。

而我们需要用到的就是这部分数据了。
那我们的任务就转而获取这些json文件,然后提取出想要的数据。由于数据不是很多,就直接写到csv文件里吧。