第三次作业-正态分布分析
正态分布代码截图-1
正态分布代码截图-2
这次作业碰到了挺多的问题,部分问题已找到答案,以注释的形式出现在代码中。
-
比如python magic命令,在之前确实未曾了解过这系列的神奇命令,想具体了解有哪些神奇之处可以戳进这篇博客 27 个Jupyter Notebook的小提示与技巧
-
同时在读取csv文件时遇到了些问题,csv文件的编码格式无法识别,导致文件中的数据无法读取。之前遇到过这样的问题,在此把解决办法写下:
1.打开csv文件,选择文件 ——> 另存为txt文件,保存格式为unicode 文本
另存为unicode文本格式2.打开新生成的txt文件,此处最好用notepad++打开,选择 格式 ——> 以utf-8格式编码
3.修改编码格式后,选择文件另存为,此时另存为的文件名字、后缀与原有的csv文件均相同,覆盖原来的文件即可
4.打开新生成的csv文件,python可正常读取文件内的数据
-
在进行编码过程中,也考虑了如何确定曲线的范围,比如求取最大值与最小值,界定范围以更好地分析。其次,在确定步进的时候也着实需要一步步尝试。如图可以看到范围145~155,在最初按照课件的演示,确定步进为1的时候,整条正态曲线像是多条直线相连接的折线,整体非常“尖锐”。后在逐渐缩小步进后得到图中教圆滑的曲线图。另外,需要选择适当数量的柱,bins的适当选取也是需要不断地调整。
-
matplotlib中文显示问题早已解决,如果想要彻底解决这个问题可以在小密圈里看我的发表,详细介绍了步骤,有不懂的可以一起探讨。
最后说一下对这个数据集的理解:如图所示,可以看到大多数赛马的赛跑时间分布在148~150区间,跑的特别快和特别慢的都占少数。《极简统计学》这本书上写到:数学家们证明了,在通过数学概率作出的硬币透支直方图中,在n充分大时,接近正态分布。
在样本量足够大时,且由很多单一的不确定现象复合而成的现象,如动物身长现象,股票价格的现象等,它们的数据分布大多数表现为正态分布。
以上。