小白的数据分析师养成之路简书电影院玩转大数据

豆瓣2016年国产影视节目数据分析

2017-02-26  本文已影响221人  飘荡的鱼头头头头头大

前几天接触了一下pyspider,最近又在复习pandas,所以打算拿豆瓣的数据来练练手。

这次我的目标是分析一下豆瓣2016年国产影视剧的情况,所以我以标签的方式来抓取影视剧(2016+中国),但是不得不让我吐槽的是,豆瓣对标签的使用还是有些不太严谨,有些老电影也会打上2016年的标签,有些明明是中国拍的却没有带“中国”的标签,比如“爵迹”。所以我不得的进行数据清洗,去掉了不是2016年的影视剧, 也人工筛选了一部分带有中国标签的,但主要由国外制作的影视剧(比如功夫熊猫)。至于“爵迹”这类因为没有中国标签而无法抓取的影片这次就先暂不考虑。

更新:发现用制片地区信息来判断是否国产比用标签判断更准确,所以重新抓取了2016的所有影视剧作品数据,保留了制片地区优先为中国的电影(比如功夫熊猫这种是“美国/中国”,这种情况就排除,只有中国/美国的时候才认为是国产影视剧),这样上述提到过一些遗漏的影视剧也被重新包括了。

整体评分分布

评分分布

在有效的644部影视节目中,最低分2.2分,从直方图来看,其实分布还算均匀,9-10分影视剧作品偏少。

前二十和后二十名

豆瓣电影中有两个主要变量可以影视剧作品的表现——得分和评分人数。我决定按照这两项表现取对数之和作为参考标注,做出一个2016年国产影视剧排行榜。最终,前二十的影视剧作品如下(“index”就是我新建的指数):

4/10/2017修正:之前index取值方法是rate和audience取对数,但实际情况还是audience对排名比重影响最大,所以用极大极小值重新归一化,将rate和audience的取值范围限定于0到1之内,所以前二十和后二十都有略微变化。

影视剧指数前二十·修正后 影视剧指数前二十·修正前

基本上2016年好的片子都排进前20了,整体评分也都较高,不过前二十中也出现了摆渡人长城这种得分较低的片子(可怜的王导张导),但是由于观众数量很大,所以也能挤入这个榜单。再来看一下倒数前20的影视剧作品,反正我是一部都没看过(不过有些名字看着挺刺激的):

更新:因为发现后二十的影片实在是观影人数太少了,所以取了第一四分位数 (Q1)——225人,225人以上的影片才考虑,所以最新的后二十如下:

影视剧指数后二十·修正后 影视剧指数后二十·修正前

更新后的后二十排行榜比之前更为靠谱,均是些低分电影。

类型分析

豆瓣电影中对影视剧作的类型分析还是比较正规的,但是有一个问题,一部作品可以有多个类型。比如既是剧情片,又是科幻片,还可能是爱情片。一开始我想取每部电影的第一个类型作为它的类型,但又考虑到大多数影视剧的第一个类型往往是剧情类,这么做可能会减少电影类型的多样化,所以最后对于电影类型的分析我就直接按照类型名分类,不做额外处理。

电影类型饼图

从这张饼图中我们可以看出,2016年影视剧作品中剧情片数量最多,爱情其次,喜剧第三,值得注意的是第四名的真人秀。

观影人数分布

在观影人数方面(评分人数),犯罪片,动作片,奇幻片获得前三。

类型片得分情况

在的平均得分方面,纪录片平均得分最高,传记其次,脱口秀,戏曲,短片也有比较多的好评,得分最差的是恐怖片,惊悚片和情色片。

导演

再来看看排名前二十的导演:


导演指数前二十

基本上这个排名和之前的影视剧排名类似,除了个别导演一年内出了两部作品,导致了排名上下有波动。周星驰凭借着美人鱼成为成为了2016年指数最高的导演。按照惯例,我们来认识下指数后二十导演。

更新:导演指数后二十也做了调整

导演指数后二十

演员

演员整体情况

上图是不同演员的整体情况图,大部分的演员平均作品得分集中在6分左右。圆圈的大小表示2016年的作品数量,圆圈越大,说明2016的作品越多。嗯,最大的那个圆圈就是薛之谦。我们来看看哪个演艺圈明星在2016年最忙:

2016年作品数最多的演员

因为选取了单年的数据,所以演员的指数排名基本和影视指数排名相似,前几名的都是出演指数最高影视剧的演员,比如美人鱼,驴得水,大鱼海棠,七月与安生和火锅英雄的演员。不过,我统计了下出演作品大于2的演员情况:

2016年作品数量大于1的演员指数排行

后续研究

  1. 重新抓取后的数据包括了所有地区国家,下次有机会按照国别对数据再来进行研究。
  2. 这次只是研究了2016的整体情况,并没有研究不同年份之间的数据,下次可以从时间维度方面对影视剧的数据进行研究。
上一篇下一篇

猜你喜欢

热点阅读