爬虫专题做一些有趣的小东西大数据 爬虫Python AI Sql

爬虫小作业 B站“暴走漫画”用户分析

2018-02-08  本文已影响56人  _Phine

萌新初试爬虫,在对@Airing的爬虫报告“B站2000万用户分析”进行一番学习后,想进行一些实践,于是就有了今天的《暴走漫画》用户小分析。

几番瞎折腾后,明白制约爬虫实践的最主要因素是爬取速度(当然爬取速度的上限又跟能力水平有)。为了尽快完成这次小作业,我选择了数据量较小的爬取任务,即针对B站某一频道的用户进行爬取。尽管如此,《暴漫》的粉丝也有23w之多(截止到2018.02.17),最终我采集了其中的约13w用户数据,实际采集时间约两天(采集到一半觉得不好又重新采集我就不算了...)。


1.基本情况

采集对象:“暴走漫画”的用户(严格来说,不能肯定其为“关注‘暴漫’的粉丝”,因为没有一一确认是否关注了“暴走漫画”频道...)

2.数据展示

2.1 男生/女生比例

开场就是男女比,惊不惊喜?

并不会...毕竟B站的女生就真的是妹子吗??!(男生就真的是基佬吗?真的...)


男女比接近3:1,比较吻合@Airing早期爬取的全站数据。(直男配色请谅解..)

同时......还有约一半的同学选择不暴露自己的性别。

2.2 用户星座

虽然我不大懂星座,但既然采集了birthday数据,不可视化就浪费了。(而且把星座放上来的话,会有更多的妹子看吗不是~逃)

天秤最多,白羊最少,性格分析就交给你们了...

2.3 地域分布

喜欢“暴漫”的盆友哪里最多呢?胡建人:溜了溜了...

广东人:不够吃...嗝~

再赠全国的盆友一张完整版词云:

2.4 用户等级

恩,主体是LV4的站友,LV0、LV1的用户少得可怜,我判断“暴漫”的用户主要是老粉吧。另一种可能就是B站新增用户太少...

作为15年注册,如今LV4的用户,表示主要是为了上B站看电影...所以上得多,但弹幕发得不多,活跃度一般...但我显然难以代表多数人,所以我也觉得单独的等级分布不易分析,可能需要跟其他自媒体的用户数据对比分析,留个小坑。

话说,要是做多个自媒体的弹幕用户的信息分析对比,得到的结果可能比较有趣~

2.5 注册时间分布

犹记得当年的AB站拿个正式用户可不容易了...连蒙带猜算是混过了B站的考试。

17年注册的“暴漫”用户叫少,也符合了上面的推测——新用户看“暴漫”的较少。如果把新用户≈年轻人,就容易理解些,毕竟“小孩子不要看动漫嘛”。

数据采集截止于2018.01下旬,所以2018几乎为空。

2.6 用户签名

“暴漫”的用户选择用什么样的签名呢?这里用词云展示一下。

我反正是看到了满屏的“233333”。

2.7 用户昵称

我选择在最后才揭露“暴漫”用户的昵称数据。

“密恐?......才不管呢”[狗头] (源自《南极料理人》)

后记

介绍一下工具:
采集用到Python + Requests 或者 Python + Splinter (≈Selenium)
存储数据用到SQLite或者Excel(xlwt、xlrd、xlutils)
数据可视化用到infogram图表秀HTML5 Word Cloud(非常棒!用法参见这篇文章)

代码估计会迟一些,以上。

上一篇下一篇

猜你喜欢

热点阅读