bilibili完结番剧分区数据抓取（第一

2018-08-08 本文已影响0人 Houtasu

image.png
想知道b站建站以来所有完结番剧分区下的视频播放数据么？想知道哪个番剧的收藏高，哪个的硬币数多么？本篇教程就叫你如何获取b站视频的数据。
https://github.com/HOUTASU/crawler_pycharm/blob/master/code/bilibili.py
上面就是b站完结分区的网页了。它在番剧大分区下。

image.png
可以看到每页有20个是视频信息。有up主，播放量，评论数等信息。然后一共有816页，那么就有16K+个视频了。
那么我们要分析这个网页，然后爬完这816个分页么？
并不！正常的爬虫思路确实是这样的。但是b站是个爬虫友好的网站，它提供的专门的爬虫接入接口。

image.png
https://zhuanlan.zhihu.com/p/35359905
感谢yxIIIc大佬提供的教程，以及uupers-b站爬虫项目组整理的b站接口的相关信息。不过yxIIIc大佬用的是Mathematica（MMA）做的爬取全站的视频数据，然而我并不会MMA，所以还以用python写吧。
https://github.com/uupers/BiliSpider/wiki
在这个网页右侧的[Bilibili API 二级分区视频分页数据（投稿时间逆序）]链接中，我们可以看到b站视频数据接口的信息。它是一个json文件。

image.png
而我们需要用到的就是这部分数据了。
那我们的任务就转而获取这些json文件，然后提取出想要的数据。由于数据不是很多，就直接写到csv文件里吧。

bilibili完结番剧分区数据抓取（第一

猜你喜欢

热点阅读