数据分析解密大数据

第三次作业-正态分布分析

2017-03-14  本文已影响159人  万能滴小笼包
赛马时间正态分布结果
正态分布代码截图-1
正态分布代码截图-2

这次作业碰到了挺多的问题,部分问题已找到答案,以注释的形式出现在代码中。

1.打开csv文件,选择文件 ——> 另存为txt文件,保存格式为unicode 文本

另存为unicode文本格式

2.打开新生成的txt文件,此处最好用notepad++打开,选择 格式 ——> 以utf-8格式编码

3.修改编码格式后,选择文件另存为,此时另存为的文件名字、后缀与原有的csv文件均相同,覆盖原来的文件即可

4.打开新生成的csv文件,python可正常读取文件内的数据

最后说一下对这个数据集的理解:如图所示,可以看到大多数赛马的赛跑时间分布在148~150区间,跑的特别快和特别慢的都占少数。《极简统计学》这本书上写到:数学家们证明了,在通过数学概率作出的硬币透支直方图中,在n充分大时,接近正态分布。

样本量足够大时,且由很多单一的不确定现象复合而成的现象,如动物身长现象,股票价格的现象等,它们的数据分布大多数表现为正态分布。

以上。

上一篇下一篇

猜你喜欢

热点阅读