Kaggle5000部电影数据分析
![](https://img.haomeiwen.com/i11562287/5f3e99640de72156.png)
![](https://img.haomeiwen.com/i11562287/8624b7cf1ae3f1a1.png)
![](https://img.haomeiwen.com/i11562287/28ae1d0bf679d892.png)
![](https://img.haomeiwen.com/i11562287/3cbe57a4cdaecb58.png)
![](https://img.haomeiwen.com/i11562287/751bf91b02f9181b.png)
![](https://img.haomeiwen.com/i11562287/978fcca12cc229fb.png)
![](https://img.haomeiwen.com/i11562287/4e663b380d0d01c9.png)
![](https://img.haomeiwen.com/i11562287/f0e3e151d8d5817f.png)
![](https://img.haomeiwen.com/i11562287/6400167655c193df.png)
![](https://img.haomeiwen.com/i11562287/2c5cc571b90b4866.png)
![](https://img.haomeiwen.com/i11562287/74e49535a317ab98.png)
![](https://img.haomeiwen.com/i11562287/5fb83aebd3b3a929.png)
![](https://img.haomeiwen.com/i11562287/cf2eb99c5d656aa3.png)
![](https://img.haomeiwen.com/i11562287/b5b7c349ee9423a2.png)
![](https://img.haomeiwen.com/i11562287/f3d297b48759938e.png)
![](https://img.haomeiwen.com/i11562287/15dfa38b9e06c015.png)
![](https://img.haomeiwen.com/i11562287/770595e844d16d29.png)
![](https://img.haomeiwen.com/i11562287/fac0128bcbbecb1f.png)
1. 项目介绍
来自Kaggle社区上的数据集,TMDB 5000 Movie Dataset。
2. 提出问题
a. 电影的类型会随着时间变化吗?若变化,是如何变化的?
b. 对于不同的电影类型,支出与利润的关系是如何的?
c. 原创电影与改编电影的对比情况是如何的?
3. 数据分析
3.1 获取数据
从Kaggle社区,下载数据集。
![](https://img.haomeiwen.com/i11562287/6be468b5568ebd4f.png)
3.2 导入数据
![](https://img.haomeiwen.com/i11562287/2ba2ee01e7de19a2.png)
3.3 查看数据
![](https://img.haomeiwen.com/i11562287/f982126991e54d8f.png)
![](https://img.haomeiwen.com/i11562287/80f4b0d132efe540.png)
3.4 数据清洗
3.4.1 合并数据
![](https://img.haomeiwen.com/i11562287/b060293e182db931.png)
3.4.2 留下需要的数据
根据前面所提出的问题,只留下自己所关心的数据,并添加一列 “利润” 数据,由收入减去支出获得。
![](https://img.haomeiwen.com/i11562287/be6e18f996437059.png)
3.4.3 处理缺失值
![](https://img.haomeiwen.com/i11562287/755f3c378f1ebed5.png)
整个数据较为完整,只有release_date列中缺失了一个数据,所以,打算通过original_title搜索出其对应的release_date。
3.4.3.1 定位缺失值
![](https://img.haomeiwen.com/i11562287/e87410ecec857632.png)
3.4.3.2 填补缺失值
![](https://img.haomeiwen.com/i11562287/7917bd87d12fb269.png)
3.4.4 转换数据类型
此数据集中包含json类型,是我之前没有接触过的,便在网上借鉴了一些处理的方法。
![](https://img.haomeiwen.com/i11562287/b3f8481f8a8bc376.png)
将genres列中所包括的类型存入genres_list中。
![](https://img.haomeiwen.com/i11562287/0a6d247a384a9bcd.png)
3.5 数据可视化
3.5.1 电影的类型会随着时间变化吗?若变化,是如何变化的?
把release_date列中的时间(年-月-日)转换为 年 。
![](https://img.haomeiwen.com/i11562287/72ad64506c6f2b4c.png)
向数据集中的列属性中添加所有的电影类别,1为此电影属于此类型,0则反之。
![](https://img.haomeiwen.com/i11562287/24084d2b11fa5f69.png)
以年份为索引,电影类型为列属性,创建一个名为genre_year的dataframe。并以年为单位计算出各类别之和。
![](https://img.haomeiwen.com/i11562287/31cccc8cd193ce56.png)
降序排列各类别之和。
![](https://img.haomeiwen.com/i11562287/0231093b57606fa8.png)
电影类型随时间的变化趋势。
![](https://img.haomeiwen.com/i11562287/7339dd78b7498e74.png)
从图中可看出,1915-1990内各电影数量没有多大的起伏,但从1990年之后有很多数量的电影开始迅速增长。但还是有少数类型增长的速度并不迅速。整体来看,不管什么类型的电影,数量都呈上升趋势。
电影类型随时间的变化趋势(前5名)
![](https://img.haomeiwen.com/i11562287/1df461bb540750e7.png)
由于第一张图中电影类型繁多,不容易区分是哪种电影的上升趋势最迅猛,故特地选取了在2005年中增长速度最快的5种电影类型。选取2005年的原因是,大多数电影在这一年度都达到了顶峰,所以是最能代表变化趋势的一年。如图,变化趋势的前5名由快到慢的结果依次为Drama、Comedy、Thriller、Romance和Action。
现在,我们对各个电影类型的数量随年份的变化情况有了了解,那么,从整体来看,到底哪个电影的类型数量是最多的?
![](https://img.haomeiwen.com/i11562287/7dca9854cb09106e.png)
从图中可看出,排名前5的类型为Drama、Comedy、Thriller、Action和Romance。其中即使是排名前5的类型中,每一类型之间的差距也不算小。Drama类稳稳的在榜首。
有意思的现象是,电影总数量中的前5名与2005年度的前5名中的类型是一模一样的,说明2005年度的快速发展几乎奠定了之后的结果,可见2005年度的前后几年对于电影业是个极其重要的一段时间。
3.5.2 对于不同的电影类型,支出与利润的关系是如何的?
整理出各个电影类型的平均支出、平均利润。
![](https://img.haomeiwen.com/i11562287/fc5e3c70e5511c49.png)
电影类型与支出、利润的关系。
![](https://img.haomeiwen.com/i11562287/2b3ff1d4806a5f24.png)
![](https://img.haomeiwen.com/i11562287/e3cae2f602a80ae7.png)
图中的信息完美地印证了一句话,要想得到高利润就要有高支出。除了Family类的电影用了中上游的支出得到了高额的利润之外,其他的类型电影几乎都是高付出和高利润一一对应的。
但请记住,图中的信息是通过5000部的数据平均得出来的结果,你永远不知道如果你投资了一部电影,你是拉低平均数还是达到平均数水平亦或是超出平均数。平均得出来的结果,只是决策中的参考,提供给我们的仅是一个较可靠的思路与方案。
3.5.3 原创电影与改编电影的对比情况是如何的?
keywords中的 ‘based on novel’ 可以帮助我们提取到需要的信息。同样也涉及到了json。
![](https://img.haomeiwen.com/i11562287/341dfba3a45e8574.png)
原创电影与改编电影所占比例。
![](https://img.haomeiwen.com/i11562287/07f64662fafc2b2f.png)
由图可看出,原创电影占据了几乎所有的市场,只有少部分为改编电影。或许是因为改编电影会承担过多的压力,因为原作已经有了一定的粉丝基础,在改编过程中稍加不慎就会不受粉丝待见,众口难调,且改编难度较大。
整理原创与改编电影的支出、收入和利润。
![](https://img.haomeiwen.com/i11562287/6b6284f389fec602.png)
下图由Excel画出。
![](https://img.haomeiwen.com/i11562287/94275918ee3b4838.png)
由图可以看出,改编电影的支出要高于原创电影,且对应的收入和利润也要高于原创电影。这也印证了之前得出的“高投资高利润”。
但是,由于改编电影在这5000部电影的数据集中占得份额太少,鉴于以少量的数据得到的平均数没有大量数据可靠,这个分析的准确性还有待商榷。不过,丝毫不妨碍其参考价值。
4. 总结
1. 深刻的理解了 “所有的数据分析是建立在业务的理解上” 这句话。对电影行业的深刻理解会有助于此次数据分 析的深入探索。
2. 此次数据分析的目的实则是为了熟悉Python的用法,但在分析过程中,也有了其他的感悟。比如最后一个旋风图,我还没有掌握如何用Python画出此图,便使用了Excel。
Python也好,Excel也罢,都是帮助我们实现分析想法的工具,在不同的情境下要使用合适的工具去落实数据 分析师的想法。之前或多或少会有Python相比Excel很高大上的想法,但最近我越来越能感觉到Excel的强之处。