lesson2-正态分布-赛马数据
lesson2 赛马数据-正态分布(4.7号)
代码:
#赛马数据可视化 from pandas import read_csv import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib.mlab as lab
#读取文件 stakes_data= read_csv('lesson2/stakes.csv')
#查看数据类型 stakes_data.dtypes
#查看数据前5行 stakes_data.head(5)
#查看一共多少行 len(stakes_data) #89
#将数据框中的time列存入一个变量‘stakes',方便之后调用 stakes= stakes_data['time']
#计算平均值,标注差 mean = stakes.mean() std = stakes.std() print('均值:'+ str(mean)) print('标准差:'+ str(std))
#绘制密度函数曲线 stakes.min() #146.0 stakes.max() #153.2
#设置起始值、结束值和步长 #Q1:最小值-1,最大值+1?Q2:步长选择的规则是? x=np.arange(145,155,0.1) y=mlab.normpdf(x,mean,std) plt.plot(x,y)
#绘制直方图 plt.hist(stakes,bins=10,color='orange',rwidth=0.9,normed=True) plt.title('Stakes Distribution') plt.xlabel('Time') plt.ylabel('Probability') plt.show
正态分布图:
![赛马冠军用时数据]
QQ20170408-1.png
数据观察:
1.基本数据
数据量:89
最小值:146.0
最大值:153.2
均值:149.221011236
标准差:1.62781647177
2.正态分布
(估68.2%) 均值+-1std=147.6-150.8 大多数选手的夺冠成绩分布在此范围内
(估27.2%) 均值+-2std = 146-152.6 如果一个选手的用时能进入147.6-146之间,他夺冠的可能性就大大增加,
(估4.2%) 均值+-3std=144.4-153.8 目前还无散落在这个区域的数值,说明赛马用时的数据相对比较稳定,较少有意外的情况出现。