解密大数据

第二次作业——直方图

2017-03-13  本文已影响111人  万能滴小笼包

在加入数据群之前,我就使用过anaconda以及jupyter。anaconda很简便,但是安装第三方包时会碰到一些困难,当时搞得我头大的问题当然是放在那不想了哈哈哈开玩笑。jupyter无疑是很方便的python编辑器,简单的教程,完全符合我审美的界面布局,实在是我的心头爱。

这次的作业要求是根据两组数据得到数据的均值与方差,以及用直方图将两组数据表示出来,下面是作业的截图

旅客人数分布直方图

从图中可以看出每月的旅客流量集中在150250之间,人数超过500的情况所占比例较小,整体来说月均流量与占比呈反比趋势。少有的现象如350400区间,影响的因素可能有很多,比如说票价、天气、节日等问题,影响因素众多。光从直方图无法看到更多详细的信息。

体重分布直方图

体重分布大多数结余45~50区间,极轻或极重的情况占小比例。可能抽样的样本小,所以无法准确得到普适性的结论。单一的从体重分布判断人的胖瘦比例是不客观的,影响的因素还包括身高、性别、脂肪含量等,更多的信息还需要具体的分析。

综上得到关于直方图的结论:可以直观的、综合的看到一组样本数据的分布情况,但想要了解更多潜在信息还需要进一步的分析。直方图是基础的数据分析作图方式,夯实基础期待更多的方法。

在做作业的过程中,碰到以下两个问题:

1.matplotlib中文显示。最开始是基于linux系统做的作业。出现中文显示问题。尝试各种修改方法后,找到一种比较靠谱的:修改配置文件,添加中文字体。因配置文件无修改权限,修改权限命令执行时发现忘了超级用户密码....暂用英文代替。又用windows系统做了一次作业,尝试用余欣的方法暂时没有用,估计还是配置文件的事

2.这个问题与课程不是很相关。在AirPassengers.csv文件中,我发现了一列格式比较奇怪的月份,如下图。虽然不是相关的问题,但还是吸引了我。如果按照“月份-日期”来看日期不合格,如果按照“月份-年”来看就有点意思。通过修改单元格格式得到了如下的日期显示,显示为一年的十二个月份,也不知道猜的对不对哈

AirPassengers.csv文件格式 转换格式后的日期

以上,即是我这次的作业以及遇到的问题,感想的话就是解决问题的能力还是要提高啊

上一篇 下一篇

猜你喜欢

热点阅读