描述统计学

2017-03-31 本文已影响57人 mnikn

研究方法入门

考虑因素：

总体参数(总体均值)mu是用来描述整个总体的值。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \mu = \frac{\sum_{1}^{N}
\bar{x}}{N})

样本统计量(样本均值)x-bar是用来描述样本的。我们使用统计量来估计总体参数。估计值是我们对总体参数的最佳猜测。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \bar{x} = \frac{\sum_{1}^{n} x}{n})

抽样误差是mu - x-bar表示样本参数与总体参数的误差。

样本大小n是取样的数量。

频率是y轴上的值。

众数(mode)是频率最高的x轴上的值。

平均值(mean)受极值的影响大，中位数(midean)受极值的影响小。

中位数偶数：midean = (num(n/2) + num((n+1)/2)) / 2

中位数奇数：midean = num((n+1)/2)

四分位差(IQR)是全部数据砍掉前25%和后75%的值域，Q1是第一个四分位点（25%），Q3是第三个四分位点（75%），IQR能避免受异常值的影响。

异常值定义：

平均绝对偏差：![](http://chart.googleapis.com/chart?cht=tx&chl=\Large dev = \frac {\sum |\bar{x}-x_i|}{n})

平均平方偏差(方差)：![](http://chart.googleapis.com/chart?cht=tx&chl=\Large dev = \frac {\sum (\bar{x}-x_i)^2}{n})

标准偏差：用于消去单位的平方。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \sigma = \sqrt {\frac {\sum (\bar{x}-x_i)^2}{n}})

样本标准偏差：采用贝塞耳修正，即除以n-1，为了减少样本偏差与总体偏差的差距。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \sigma = \sqrt {\frac {\sum (\bar{x}-x_i)^2}{n-1}})

标准差数量：x为目前值，mu为平均值。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large z = \frac {x-\mu}{\sigma})

正态分布两边对称。

3sigma规则：

3sigma
$3sigma$ 3sigma

Z-表格里面的数值是小于Z的比例，纵行为sigma数![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \frac{Z-\mu}{\sigma})含小数前一位，横行为小数一位后，Z-表格:

Z-table

样本均值的均值：总体样本的均值M。

中心极限定理：标准误差:![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \frac{\sigma}{SE}=\sqrt n)
其中sigma为总体方差，SE为样本方差,n为样本数，可用Dice尝试