统计学
标准误
定义:从同一总体中抽取相同容量的不同样本所产生的预期平均差异(抽样分布的标准差)
计算: 标准差/样本容量的平方根
标准误常用于推断统计量,以测度样本统计值与不同随机样本统计值之间的平均差异的大小。
(标准误总作为统计量的分母,标准误越小统计量越大,显著性可能性越大)
统计显著性、效应量和置信区间
对显著性的理解
完全由于随机抽样误差或者偶然因素引起的样本统计量落入给定值域的概率小于显著性水平a,则称结果是统计显著的。一般代表拒绝原假设。
(p值小于a,显著差异,拒绝原假设)
假设检验和显著性检验原理是一样的,显著性检验指假设检验中构造的某参数的统计量进入了拒绝域
置信区间的理解
由样本统计量计算出的以一定的置信水平包含总体参数的区间。95% 99%置信区间。
置信区间公式:
CI99 = 样本均值+- 置信水平为0.05的双尾检验的t值*标准误
(置信水平95% 显著性水平就是0.05 ) 信大
用样本数据推断总体时:
样本统计量能多大程度推广到总体,我们需要用到统计显著性,效应量,置信区间。
效应量: 分子还是样本统计量-总体参数,分母是标准差
从某一统计量中观测到效应大小的一种测度,消除了样本大小的影响,来确定统计值的实际显著性。
结合效应量和置信区间的结果判断统计显著性
假设检验的概念
根据问题的需要对总体做出某周假设H0,选择合适的统计量,这个使得H0成立时分布要知道,计算出统计量的值,再根据显著性水平进行检验,做出接受或者拒绝原假设。
(双尾单尾显著性或假设检验)
p值
在随机误差作用下,从给定容量样本得到给定大小统计值的概率。置信区间包含总体参数的确信程度为95% 99%对应p值0.05和0.01
p<0.05 认为样本统计量与总体参数有显著性差异。
相关性
协方差公式
[图片上传失败...(image-703e42-1520822248347)]
X与均值之差*Y与均值之差 再对这个成绩求和求平均(也就是求成绩的期望)
皮尔逊积差相关系数
imageX、Y的协方差除以X的标准差 Y的标准差
所以,相关系数也可以看成一种剔除了两个变量量纲影响、标准化后的特殊协方差。
皮尔逊相关系数含义
皮尔逊相关系数帮助我们确定 一个变量平均而言是否与另一个变量相关联。
仅仅意味着一个变量的变动对应着另外一个变量的变动,而不是因果关系。但是如果不相关,就不会有因果关系。
(简单皮尔逊系数考察的是变量之间的线性关系)