统计思维导图与常用公式

2019-01-07  本文已影响0人  了不起的树懒

数据的概括性度量

峰态(kurtosis):它是对数据分布平峰或尖峰程度的测度。
峰态系数(coefficient of kurtosis)K=\frac{\sum_{i=1}^k(M_i-\overline{x})^4f_i}{ns^4}-3,s^4是样本标准差的四次方。(EXCEL函数:KUPT(number1,number2,……),样本数少于4个或者标准差为0,则返回错误值#DIV/0!)
   峰态的测度:1.K=0,正态分布;
         2.K>0,尖峰分布,数据的分布更集中;
         3.K<0,扁平分布,数据的分布更分散。

统计量及其抽样分布

参数估计

一个总体参数的区间估计

            不同情况下总体均值的区间估计

总体分布 样本量 σ已知 σ未知
正态分布 大样本(n\geq30 \overline{x}\pm z_\frac{\alpha}{2} \frac{σ}{\sqrt{n}} \overline{x}\pm z_\frac{\alpha}{2} \frac{s}{\sqrt{n}}
正态分布 小样本(n\leq30 \overline{x}\pm z_\frac{\alpha}{2} \frac{σ}{\sqrt{n}} \overline{x}\pm z_\frac{t}{2} \frac{s}{\sqrt{n}}
非正态分布 大样本(n\geq30 \overline{x}\pm z_\frac{\alpha}{2} \frac{σ}{\sqrt{n}} \overline{x}\pm z_\frac{\alpha}{2} \frac{s}{\sqrt{n}}

两个总体参数的区间估计

参数 点估计量(值) 标准误差 (1-\alpha)%的置信区间 假定条件
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm z_\frac{\alpha}{ 2} \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} (1)独立大样本
(n_1≥30,n_2≥30)
(2)σ_1,σ_2已知
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm z_\frac{\alpha}{ 2} \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} (1)独立大样本
(n_1≥30,n_2≥30)
(2)σ_1,σ_2未知
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm t_\frac{\alpha}{ 2}(n_1+n_2- 2) \sqrt{s_p^2 (\frac{1}{n_1}+\frac{ 1}{n_2})} (1)两个正态总体
(2)独立小样本
(n_1<30,n_2<30)
(3)σ_1,σ_2未知但相等
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm t_\frac{\alpha}{ 2} (v)\sqrt{\frac{ s ^2_1}{n_1}+\frac{s^2_2}{n_2}} (1)两个正态总体
(2)独立小样本
(n_1<30,n_2<30)
(3)σ_1,σ_2未知且不相等
u_d=u_1-u_2
两个总体
均值之差
\overline{d} \frac{σ_d}{\sqrt{n}} \overline{d} \pm z_\frac{\alpha}{2} \frac{σ_d}{\sqrt{n}} 匹配大样本
(n_1≥30,n_2≥30)
u_d=u_1-u_2
两个总体
均值之差
\overline{d} \frac{σ_d}{\sqrt{n}} \overline{d} \pm t_\frac{\alpha}{2} (n-1)\frac{s_d}{\sqrt{n}} (1)两个正态总体
(2)匹配小样本
(n_1<30,n_2<30)
参数 点估计量(值) 标准误差 (1-\alpha)%的置信区间 假定条件
\pi_1-\pi_2
两个总体
比例之差
p_1-p_2 \sqrt{\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_ 2}} (p_1-p_2) \pm z_\frac{\alpha}{2} \sqrt{\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_ 2}} (1)两个二项总体
(2)匹配小样本
(n_1p_1≥5,n_1(1-p_1)≥5
n_2p_2≥5,n_2(1-p_2)≥5)
参数 点估计量(值) 标准误差 (1-\alpha)%的置信区间 假定条件
σ_1^2-σ_2^2
两个总体
方差比
s_1^2/s_2^2 (不要求) \frac{s_1^2/s_2^2}{F_\frac{\alpha}{2}}\leq\frac{σ_1^2}{σ_2^2}\leq\frac{s_1^2/s_2^2}{F_\left(1-\frac{\alpha}{2}\right)} 两个正态总体

样本量的确定

假设检验

项目 没有拒绝H_0 拒绝H_0
H_0为真 1-\alpha(正确决策) \alpha(弃真错误)
H_0为伪 \beta(取伪错误) 1-\beta(正确决策)

一个总体参数的检验
在一个总体参数的检验中,用到的检验统计量主要有三个:z统计量,t统计量,\chi^2统计量。z统计量和t统计量主要用于均值和比例的检验,\chi^2统计量则用于方差的检验。

检验参数 条件要素 检验统计量
总体均值u_0检验 大样本 z=\frac{\overline{x}-u_0}{σ/\sqrt{n}}
总体均值u_0检验 小样本
(σ已知)
z=\frac{\overline{x}-u_0}{σ/\sqrt{n}}
总体均值u_0检验 小样本
(σ未知)
t=\frac{\overline{x}-u_0}{s/\sqrt{n}}
总体比例\pi_0检验 大样本 z=\frac{p-\pi_0}{\sqrt{\frac{\pi_0\left(1- \pi_0 \right)}{n}}}
总体方差σ^2检验 大样本 \chi^2=\frac{(n-1)^2s^2}{σ^2}

两个总体参数的检验

检验参数 条件要素 检验统计量
均值之差
u_1-u_2检验
样本量大
σ²已知或未知
z=\frac{(\overline{x}_1-\overline{x}_2)-(u_1-u_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{ n_2}}}
均值之差
u_1-u_2检验
样本量小
σ²未知,且\sigma_1^2=\sigma_2^2
t=\frac{(\overline{x}_1-\overline{x}_2)-(u_1-u_2)}{s _p\sqrt{\frac{1}{n_1} + \frac{1}{ n_2}}}
均值之差
u_1-u_2检验
样本量小
σ²未知,且\sigma_1^2≠\sigma_2^2
t=\frac{(\overline{x}_1-\overline{x}_2)-(u_1-u_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{ n_2}}}
比例之差
\pi_1-\pi_2检验
服从二项分布 z=\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{ n_2}+\frac{1}{ n_2})}}
方差比
\frac{σ^2_1}{σ^2_2}检验
两个正态总体 F=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}

方差分析

单因素方差分析
总平方和(sum of squares for total):SST=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\overline{\overline{x}})^2
组间平方和(sum of squares for factor A):SSA=\sum_{i=1}^kn_i(x_{i}-\overline{\overline{x}})^2
组内平方和(sum of squares for error):SSE=\sum_{i=1}^k\sum_{j=1}^{n_i} (x_{ij}-\overline{x})^2
SST=SSA+SSE
EXCEL方差分析表:

误差来源 平方和SS 自由度df 均方MS F值 P值 F临界值
组间(因素影响) SSA k-1 MSA MSA/MSE
组内(误差) SSE n-k MSE
总和 SST n-1

表格分析:1.若F值>F临界值,则拒绝原假设H_0,表明有显著差异;
     2.若F值<F临界值,则不拒绝原假设H_0,表明没有显著差异;
     3.若P<\alpha,则拒绝H_0,若P>\alpha,则不拒绝H_0

双因素方差分析

误差来源 平方和SS 自由度df 均方MS F值 P值 F临界值
行因素 SSR k-1 MSR F_R
列因素 SSC n-k MSC F_C
误差 SSE (k-1)*(r-1) MSE
总和 SST kr-1

表格分析
1.F_R>F_\alpha,拒绝原假设H_0,表明行之间有显著差异,反之则不拒绝原假设H_0,表明行之间没有明显差异;
2.F_C>F_\alpha,拒绝原假设H_0,表明列之间有显著差异,反之则不拒绝原假设H_0,表明列之间没有明显差异;
3.如果P-value<\alpha,拒绝原假设H_0,P-value>\alpha,不拒绝原假设H_0

关系强度的测度:
R^2=\frac{SSR+SSC}{SST}

误差来源 平方和SS 自由度df 均方MS F值 P值 F临界值
行因素 SSR k-1 MSR F_R
列因素 SSC n-k MSC F_C
交互作用 SSRC (k-1)*(r-1) MSRC F_{RC}
误差 SSE kr(m-1) MSE
总和 SST kr-1

表格分析
1.行因素的P-value<\alpha,则拒绝原假设,表明行之间有显著差异,反之,不拒绝原假设,表明行之间没有显著差异;
2.列因素的P-value<\alpha,则拒绝原假设,表明列之间有显著差异,反之,不拒绝原假设,表明列之间没有显著差异;
3.交互作用的P-value<\alpha,则拒绝原假设,表明相互作用有显著影响,反之,不拒绝原假设,表明相互作用没有显著影响。

一元线性回归

相关系数(correlation coefficient):根据样本数据计算的度量两个变量之间线性关系强度的统计量(CORREL(Array1,Array2))。
r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum {x}^2-\left( \sum x \right) ^2} \times \sqrt{n \sum y^2 - \left( \sum y\right) ^2}}

EXCEL一元线性回归表:

回归统计
Multiple R r
R Square R^2
Adjusted R Square R_a^2
标准误差 s_e
观测值 n

方差分析

SS df MS F值 P值 Significance F
回归 SSA k-1 MSA MSA/MSE
残差 SSE n-k MSE
总计 SST n-1
Coefficients 标准误差 t Stat P-value Lowe 95% Upper 95%
Intercept \beta_0
X Variable 1 \beta_1

表分析:
1.回归方程:E(y)=\beta_0+\beta_1x;
2.r=1时,x与y之间为完全正线性相关关系,r=-1时,x与y之间为完全负线性相关关系;r区间为(0,1)时,x与y之间为正线性相关关系,r区间为(-1,0)时,x与y之间为负线性相关关系。
3.R^2的值表明x与y之间的拟合强度,R^2的值越接近1,表明x与y相关性越强,拟合性越好。
4.标准误差s_e可以用来度量各实际观测点在直线周围散布状况的一个统计量,说明判断结果的误差范围。
5.线性关系检验:若F>F_\alpha,拒绝H_0,表明两个变量之间的线性关系是显著的;若F<F_\alpha,不拒绝H_0,没有证据表明两个变量之间的线性关系显著(除此之外,还需要判断P值与\alpha之间的大小以确定是否拒绝H_0,EXCEL表中的显著性F(Significance F)就是用于检验的P值)。
6.回归系数的检验:t(t Stat)>t_\frac{\alpha}{2},拒绝原假设,表明该变量是显著性影响要素(判断P值方法与前面相同)。
7.点估计:代入自变量到回归方程获得相应的因变量。
8.置信区间估计:y_0\pm t_\frac{\alpha}{2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum_{i=1} ^n(x_i -\overline{x})^2}}
9.预测区间估计:y_0\pm t_\frac{\alpha}{2}s_e\sqrt{1+ \frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum_{i=1} ^n(x_i -\overline{x})^2}},预测区间要比置信区间更宽一些。

多元线性回归

EXCEL多元线性回归表:

回归统计
Multiple R r
R Square R^2
Adjusted R Square R_a^2
标准误差 s_e
观测值 n

方差分析

SS df MS F值 P值 Significance F
回归 SSA k-1 MSA MSA/MSE
残差 SSE n-k MSE
总计 SST n-1
Coefficients 标准误差 t Stat P-value Lowe 95% Upper 95%
Intercept \beta_0
X Variable 1 \beta_1
X Variable 2 \beta_2
X Variable 3 \beta_3
…… ……

表分析:
1.回归方程:E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+……;
2.r=1时,x与y之间为完全正线性相关关系,r=-1时,x与y之间为完全负线性相关关系;r区间为(0,1)时,x与y之间为正线性相关关系,r区间为(-1,0)时,x与y之间为负线性相关关系。
3.R^2_a为调整多重判定系数,表明x与y之间的拟合强度,R^2_a的值越接近1,表明x与y相关性越强,拟合性越好。
4.标准误差s_e可以用来度量各实际观测点在直线周围散布状况的一个统计量,说明判断结果的误差范围。
5.线性关系检验:若F>F_\alpha,拒绝H_0,表明两个变量之间的线性关系是显著的;若F<F_\alpha,不拒绝H_0,没有证据表明两个变量之间的线性关系显著(除此之外,还需要判断P值与\alpha之间的大小以确定是否拒绝H_0,EXCEL表中的显著性F(Significance F)就是用于检验的P值)。
6.回归系数的检验:t(t Stat)>t_\frac{\alpha}{2},拒绝原假设,表明该变量是显著性影响要素(判断P值方法与前面相同)。

指数

简单综合指数:I_p=\frac{\sum p_1}{\sum p_0},I_q=\frac{\sum q_1}{\sum q_0},p代表质量指标,q代表数量指标;I_p代表质量指标指数,I_q代表数量指标指数。
加权综合指数:I_p=\frac{\sum qp_1}{\sum qp_0},I_q=\frac{\sum q_1p}{\sum q_0p} ,其中p,q代表的是权数。
(1)拉氏指数:I_p=\frac{\sum q_0p_1}{\sum q_0p_0},I_q=\frac{\sum q_1p_0}{\sum q_0p_0}, I_p代表质量指标指数,I_q代表数量指标指数,p_0p_1分别表示基期和报告期的质量指标值;q_0q_1分别表示基期和报告期的数量指标值
(2)帕氏指数:I_p=\frac{\sum q_1p_1}{\sum q_1p_0},I_q=\frac{\sum q_1p_1}{\sum q_0p_1}

上一篇 下一篇

猜你喜欢

热点阅读