数据分析新搭档，Python+PowerBI，再次探索泰坦尼克号

2019-10-09 本文已影响0人 5f343b05b3de

后续更多干货资料，请关注！！！

前言

本号之前就已经有一篇文章关于探索《泰坦尼克号》的生还数据案例，文章中完全使用 Python 分析出一系列数据背后的逻辑。

但是，在探索分析中需要经常在不同维度中输出数据可视化，说实在的，我连一句代码都不想写！

今天，我使用极少量 Python 代码(就3句 pandas 相关代码) 加上微软的商业智能分析神器 Power BI ，再次探索此数据。像侦破案件一样，一步步通过可视化动态关联图表，找到数据之间的关系。

由于文章篇幅太长，为了文章的阅读性和连贯性，因此案例分为3篇文章完成(分析，实现，思路)，此文是分析篇，虽然不涉及代码和实现，但内容是3篇文章的核心。

数据说明

本文案例数据来自于一份公开的关于"泰坦尼克号遇难事件"的数据。部分记录如下图：

survived ，1：生还；2：没有生还

sex ，male：男；female：女

我很喜欢用描述来表示一份数据，这数据反应的信息，如下，其中括号中的是对应的字段：

船上的一位乘客 jack(name)

男性(sex)，20岁(age)

他拿着价值35美元(fare)船票(ticket)，在 xxx 港口(embarked) 上船

他的房间在头等舱(pclass) 的305号房(cabin)

他在这次事件中被获救(survived)

来看看基本的字段信息

82 年 18 月 71号考试075分去掉文字加我的裙

共1309条数据。一行表示一位乘客

年龄、港口都有少量数据缺失

其他有些字段有大量缺失

设立分析方向

我们这次需要探索到底谁更有可能生还，从数据中各个字段中可以知道如下信息：

类别字段有：性别、船票、港口、船舱、乘客等级、是否生还

连续值字段有：年龄、票价

其中是否生还是一个重要字段

我们可以使用不同的类别字段，通过对是否生还做统计，设定下列分析方向：

性别、乘客等级、港口，是否与生还率有关系？

年龄大小是否与生还率有关系？

注意，本文的分析不局限于上面列出的问题，接下来你会看到，在分析过程中我们会发现新的线索

环境与工具

本文需要用到以下环境

Python 的 pandas 包，强烈建议你安装 Anaconda。

Power BI Desktop(免费版)。可自行到官方网站下载

故事报告

报告的第一页，名字叫"整体状况"，看看动图，我们是怎么快速发现问题

这页上的所有图表都可以交互关联

比如想看第一个年龄段(17岁以下)的生还率，只需要点击一下右上图第一个条形，左边的性别柱状图马上变化，以反映17岁以下的性别生还率情况

中间部分的人数显示也会变动

下方的数据表也会同时根据当前筛选改变

分析一下以上的过程

整体生还率不足40%

性别图中可以看到，女性的生还率高出男性很多！如果你熟悉电影《泰坦尼克号》的情节就知道，整个救援工作的核心是"lady first"!

从年龄段图看，17岁以下的孩子生还率高出其他年龄段，毕竟紧要关头还是要照顾小孩子

发现线索

当我们点击右上图第一个条状时，可以看到左边的性别生还率分布有不一样的变化。如下图：

男女的生还率差距马上缩少了许多

这可以看出，"女士得到优先救援"这一原则，在17岁以下的人士中，相对其他年龄段变得不太明显。

看到是孩子，管他是男是女，先救起来再说！

此时有人提出质疑，只是这样不能下定论啊，有可能17岁以下的男生人数很少，而又刚好他们大部分被救，也可以导致上图的结果。

来看看我们怎么用数据消除质疑。

关联跳转

此时你可能会想看看17岁以下的男女人数分布，没问题！看以下动图：

直接在17岁以下年龄段的条形图中直接跳转到年龄分布图

你可以在不同的年龄段跳转

跳转后的分布图会显示对应的年龄段分布

左上角有返回按钮，方便你退回跳转前的位置

细看一下17岁以下的分布图，如下：

可以看到，男生与女生的数量基本一致

在15到16岁这段中，男生的数量还比女生要多

其实第一页报告中的中间部分有显示男女人数

目前为止，我们得到以下分析结果：

女性比男性更可能生还

小孩子(17岁以下)更可能生还

小孩子(17岁以下)中，性别影响相对较少

对性别生还率进行探索

刚刚我们只是重点分析了每个年龄段的影响，现在试试重点看看性别，却发现了问题。看以下动图：

分别点击性别生还率图的男性和女性的柱状

下面通过静态图分析，方便读者查看。以下是女性的年龄段图：

在女性中，根本无视年龄的区别，17岁以下的女生生还率反而没有其他年龄段高！

注意图中的浅色区域，是整体的生还率。可以看出来，女性的每个年龄段的生还率都远远高于整体

看看男性的年龄段图：

在男性各年龄段中，则体现了之前的分析

男性的每个年龄段的生还率都远远低于整体

原来是男性把每个年龄段的生还率给拉下来了。

重大发现

在第一页的报告下方有显示数据，来看看17岁以下的数据，才发现一直忽略了一个重要因素！如下图：

从名字列可以看到，他们是有关系的(兄弟姐妹)

看 ticket 列，他们的票号是一样的

我们一直没有注意到，这里还有套票的情况，从"是否套票"可以看出来是否一家人或朋友，反正就是一起买票一起上船

我们把买套票的人归类为"有组织人士"(名字怪怪的？？)，其他人归类为"独自一人"，制造出第二页报告——单身生还率。来看看动态图：

鼠标只要移到上方堆积图中的每一格，即显示对应的船舱等级人数比例饼图

右下图可以分别点击2个柱状，查看情况

下面来仔细分析。

先看看整体情况

有一名9岁的孩子，其他都是13岁以上

其中15和16岁的人数最多

暂时没能分析出他们是否一伙

其他分析

由于篇幅所限，本文没有对其他字段的分析做说明，比如：

通过 pclass 与年龄分布可以知道，坐头等舱的大部分是上了年纪的(这是常识吧)

通过 pclass 与生还率的分析，可以知道，头等舱的生还率非常高，这可能有一部分原因是特别照顾有名望的人士

通过 cabin 同样可以分析出，某些房间会有更高的生还率，Kaggle 上有人通过关于当年泰坦尼克号的船结构分析出每个房间的位置，更靠近甲板的房间更可能获救

以上部分的分析，在报告中是做出来了的，有兴趣的小伙伴请自行下载查看。

最后

在数据探索分析(EDA)中经常需要对不同维度进行数据分析可视化，如果全过程使用 Python 会很不方便。Power BI 正好弥补了这一点，他可以快速输出关联动态图表，并且他也支持在数据处理环节与可视化环节中使用 Python(重点是pandas)，这大大提高生产效率。

数据分析新搭档，Python+PowerBI，再次探索泰坦尼克号

猜你喜欢

热点阅读