统计学 学习笔记
概率论
随机事件和概率及其分布
随机事件
变异
概率分布
数理统计
统计资料类别及其展示
统计资料类别
连续和离散型变量形式上区别在于是否有小数点,连续型可以取任意值,比如身高体重,离散型之能是整数比如疼痛评分。
无序分类和有序分类主要区别在于是否看作有一定等级。如职业血型都是无序;疗效(如显著,有效、无效)、严重程度(如轻,中,重)有固定顺序
- 计数资料:按次去数数得出的,单位是次。(统计资料按类型区分:计量资料,计数资料,等级资料)
- 计数资料转化成连续资料的契机
计数资料一般采用Poisson回归,当计数资料足够多时,是否可以采用一般线性模型(如线性回归)分析?
答:看情况 - 分类资料中无序和有序是如何确定的
两组无序变量可采用卡方检验,有序分类可考虑秩和检验。
如果研究目的关注等级或者程度上的差异,则可将其作为有序分类变量;如果只是想看构成,并不关注程度上的区别,则视为无序资料。
- 连续资料转换成分类资料
连续资料在转换成分类资料时,会损失一定信息,但是以下两种情况可以考虑
- 出于实际应用,
例如:BMI在做变量时,BMI增加2,高血压风险增加1%,意义不大。换成肥胖与正常,高血压风险增加10%
- 连续资料本身与结果变量之间并不是线性关系,为了简化问题,可以考虑作为分类资料。
- 连续资料如何分组(寻找cut-off值)
-
专业和实际经验
-
广义可加模型结合专业知识
广义可加模型就是探讨自变量和因变量关系 -
利用ROC曲线找出cut-off值来划分
利用ROC曲线找出cut-off值,其前提必须有一个明确的二分类结局
- 利用最大选择秩统计量划分
无须二分类变量
- 利用分类树划分
- 聚类分析
统计资料showtime
理论上
集中趋势:平均数和均数
变异程度:方差和标准差
活动范围:自由度
相对位置:百分位数;Z值度量
- 标准化:转变成以0为均数、以1为标准差的正态分布
Z=(x-u)/ρ
Z值常用于比较不同单位指标,判断异常值
- 中心化:每个原始数据减去其均数后得到的值,相当于标准化的分子部分
比例和率区别
类别 | 描述 | 例子 | 意义 |
---|---|---|---|
比例 | 静止的,就是一个时刻算出来的结果 | 比如:统计今天看了日本动作片的人中,男生比例 | 类别的含义 |
率 | 动态的,要很长时间观察才能知道的答案 | 比如:男生在看日本动作片的比例,一直在变 | 强调严重性和强度 |
正确展示百分比:原则就是:每个分组变量内合计为100%。
实操
-
描述统计量
1.位置:
mean()
sort()
median()
quantile()2.分散程度:
var()
sd()
cv()3.分布形状
偏度系数
峰度系数
-
数据分布(对总体情况而言)
1.分布函数
dnorm():概率密度
rnorm():仿真随机数
qnorm()分布函数反函数
pnorm():分布函数
直方图
经验分布
QQ图:可以直接观察是否符合某种分布
茎叶图
箱线图
五数概括
2.正态性检验与分布拟合检验
shapiro.test()
ks.tst()
多元数据特征与相关性分析
从一维向量到二维平面是一次巨大飞跃!!!多了很多的属性,在这个方面才可以谈相关性
二元数据的数字特征及相关系数
二元数据的相关性检验
p值判断有没有显著性(相关不相关),相关系数反应自变量变化会随着因变量变化改变幅度。
pearson检验
spearman秩检验
kendall秩检验
硬度(x1) | 变形(x2) | 弹性(x3) |
---|---|---|
65 | 45 | 27.6 |
70 | 45 | 30.7 |
70 | 48 | 31.8 |
69 | 46 | 32.6 |
66 | 50 | 31 |
67 | 46 | 31.3 |
68 | 47 | 37 |
72 | 43 | 33.6 |
66 | 47 | 33.1 |
68 | 48 | 34.2 |
协方差矩阵:无论多少次观察,只把每一个方向看成一个数字对待
> cov(rubber)
x1 x2 x3
x1 4.766667 -1.9444444 1.9344444
x2 -1.944444 3.8333333 0.6166667
x3 1.934444 0.6166667 6.1898889
rubber就是上面表格数据,类似于三维,就是三个特点,方向或者属性,whatever,进行了10次观察,抽样,得出的数据,cor()就是求出协方差矩阵,通俗的说就是:在三个属性上进行投影。
相关矩阵
> cor(rubber)
x1 x2 x3
x1 1.0000000 -0.4548832 0.3561291
x2 -0.4548832 1.0000000 0.1265962
x3 0.3561291 0.1265962 1.0000000
相关性检验
> cor.test(~x1+x2,rubber)
Pearson's product-moment correlation
data: x1 and x2
t = -1.4447, df = 8, p-value = 0.1865
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8430535 0.2448777
sample estimates:
cor
-0.4548832
p-value = 0.1865,→x1,x2不相关
多元数据图形表示方法
轮廓图
星图
调和曲线图
假设检验
利用样本数据对某个事先做出的统计假设按照某种设计好的方法进行检验,判断此假设是否正确。
一般步骤:
1.对待检验的未知参数θ,根据问题的需要作出一个单边或者双边的假设。选择假设的原则是:事先有一定信任度或者出于牟总考虑是否要加以“保护”
2.选定一个显著性水平α,最常用α=0.05
3.构造一个统计量g,g的大小反映对H0有利或不利,拒绝阈有形式W={g∈C}
4.根据显著性水平α的检验定义,来确定W.
假设检验的两类错误
I类错误:否定了真是原假设,犯一类错误概率定义为显著性水平α
II类错误:接受了错误原假设,犯二类错误的概率常用β表示
功效:否定了错误的原假设,常用π表示,π=1-β
正态总体均值的假设检验
- 单个总体情况
例:一批原件服从正态分布,159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170.
是否有理由认为原件平均寿命大于225h?
#alternative=“greater”表示单边假设(H1:μ>μ0),mu表示原假设μ0#
> t.test(lqq_4,alternative = "greater",mu=225)
One Sample t-test
data: lqq_4
t = 0.66852, df = 15, p-value = 0.257
alternative hypothesis: true mean is greater than 225
95 percent confidence interval:
198.2321 Inf
sample estimates:
mean of x
241.5
#P值=0.257>0.05,不能拒绝原假设,接受H0,即认为平均寿命不大于225h#
- 两个正态总体
例:标准方法:78.1,72.4,76.2,74.3,77.4,78.4,76,75.5,76.7,77.3
新方法:79.1,81,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1
两样本相互独立,且分别来自正态总体,问新方法是否提高得了
#less表示单边假设,H1:μ1<μ2,var.equal是逻辑变量,var.equal=TRUE表示两总体方差相等#
> t.test(lqq_5,lqq_6,var.equal = TRUE,alternative = "less")
Two Sample t-test
data: lqq_5 and lqq_6
t = -4.2957, df = 18, p-value = 0.0002176
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -1.908255
sample estimates:
mean of x mean of y
76.23 79.43
#P值0.0002176(<0.05),拒绝原假设,即认为新操作能够提高方案#
- 成对数据t检验
例:标准方法:78.1,72.4,76.2,74.3,77.4,78.4,76,75.5,76.7,77.3
新方法:79.1,81,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1
两样本相互独立,且分别来自正态总体,问新方法是否提高得了
> t.test(lqq_5-lqq_6,alternative = "less")
One Sample t-test
data: lqq_5 - lqq_6
t = -4.2018, df = 9, p-value = 0.00115
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
-Inf -1.803943
sample estimates:
mean of x
-3.2
正态总体方差的假设检验
- 单个总体情况
- 两个总体情况
二项分布总体的假设检验
有一批蔬菜种子平均发芽率p0=0.85,现随机抽取500粒,用种衣剂浸种处理,结果有445粒发芽,试检验种衣剂对种子发芽率有无效果
H0:p=p0=0.85,H1:p≠p0
#binom.test(x,n,p=0.5,alternative=c("two.sided","less","greater"),conf.level=0.95, x表示成功次数,n是试验总数,p是原假设概率#
> binom.test(445,500,p=0.85)
Exact binomial test
data: 445 and 500
number of successes = 445, number of trials = 500, p-value
= 0.01207
alternative hypothesis: true probability of success is not equal to 0.85
95 percent confidence interval:
0.8592342 0.9160509
sample estimates:
probability of success
0.89
#P值= 0.01207<0.05,拒绝原假设,认为种衣剂对种子发芽率有显著效果#
据以往经验,新生儿染色体异常率为1%,某医院观察当地400名新生儿,只有1例染色体异常,问该地新生儿染色体异常是否低于一般水平?
H0:p≥0.01,H1:p<0.01
> binom.test(1,400,p=0.01,alternative = "less")
Exact binomial test
data: 1 and 400
number of successes = 1, number of trials = 400, p-value =
0.09048
alternative hypothesis: true probability of success is less than 0.01
95 percent confidence interval:
0.0000000 0.0118043
sample estimates:
probability of success
0.0025
#P值=0.09048(>0.05=α),并不能认为该地区新生儿染色体异常率低于一般水平。另外从区间估计值也可以说明,上限0.0118043>0.01#
非参数检验
参数检验:在统计推断问题中,若给定或假定了总体分布的具体形式(如正态分布),只是其中含有若干未知参数,要基于来自总体的样本对参数做出估计或进行某种形式的假设检验,这种推断方法称为参数方法。
非参数检验:在实际问题中,很难对总体的分布形式作出正确的假定,最多能对总体分布作出诸如连续型分布、关于某点对称分布等一般性假定。这种不假定总体的分布形式,尽量从数据(或样本)本身来获得所需信息的统计方法称为非参数检验。
Pearson拟合优度x²检验
- 理论分布完全已知
- 理论分布依赖于若干未知参数
- 理论分布依赖于若干未知参数情况
Kolmogorov-Smirnov检验
- 单个总体的检验
- 两个总体的检验
列联表数据的独立性检验
- Pearson x²检验
- Fisher精确的独立检验
- McNemar检验
符号检验
- 检验一个样本是否来自某个总体
- 用成对样本来检验两总体间是否存在显著差异
秩检验
秩统计量:就是按大小排序后其所在位置数,具有分布无关性
- Spearman秩相关检验
- Kendall相关检验
Wilcoxon秩检验
- 对来自一个总体样本检验
- 非成对样本的秩次和检验
t检验
卡方检验
方差分析
参数估计
类别 | 概念 | 优点 | 缺点 |
---|---|---|---|
点估计 | 一个统计量来估计一个未知参数 | “未知参数有多大” | 不能反映估计的可信程度 |
区间估计 | 两个统计量所构成的区间来估计一个未知参数 | 该区间覆盖住这个参数的可靠程度(置信度) | 不能直接得出未知参数的值 |
估计量的优良性准则
- 无偏估计
一次抽样中得到的估计值不一定恰好等于待估参数真值,但大量的重复抽样(样本容量相同)时,所得到的估计值平均起来应与待估参数的真值相同。
换句话说,我们希望:估计量的数学期望应等于未知参数的真值
- 有效性
无偏估计量不唯一时,倾向于更集中与待估计参数的真值的附近,即哪一个估计量的方差更小
如果存在一个估计量θ的方差最小,则此估计量最好,称为最小方差无偏估计。
- 相合性(一致性)
区间估计
- 一个正态总体
均值为μ的区间估计:总体方差已知和方差未知
方差ρ²的区间估计:总体均值已知和总体均值未知
- 两个正态总体
均值差μ1-μ2的区间估计
配对数据情形下均值差μ1-μ2的区间估计
方差比 ρ₁²/ρ₂²的区间估计
例:已知两组数据
A:79.98,80.04,80.02,80.04,80.03,80.03,80.04,79.97,80.05,80.03,80.02,80.00,80.02
B:80.02,79.94,79.98,79.97,79.97,80.03,79.95,79.97
求二者区间估计
> var.test(lqq_2,lqq_3)
F test to compare two variances
data: lqq_2 and lqq_3
F = 0.58374, num df = 12, denom df = 7, p-value = 0.3938
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.1251097 2.1052687
sample estimates:
ratio of variances
0.5837405
- 非正态总体的区间估计
- 单侧置信区间估计
某些问题,只关心 θ在某一方向上的界限。例如:对于设备的寿命,关系平均寿命的“下限”,考虑废品率时,关心的是参数p的“上界”,称这类问题是单侧区间估计
一个总体求均值
一个总体求方差
求个总体求均值差
求两个总体方差
常用分析方法
回归分析
通常,变量之间关系有两大类一类是变量间有完全确地的关系,函数关系;另一类变量之间有一定的关系,回归分析是研究这一类问题规律的方法
回归分析中,变量分为两类,一类是因变量,实际问题关系的一类指标,通常用Y表示;一类是自变量,用X1,X2,X3,X4,表示
回归分析研究的主要问题是:
(1)确定Y与X1,X2,X3,X4,Xp间的定量关系表达式,这种表达式称为回归方程
(2)对求得的回归方程的可信度进行检验;
(3)判断自变量Xj(j=1,2,3,……p)对Y有无影响
(4)利用所求得回归方程进行预测和控制
一元线性回归
- 画图
- 回归参数估计
- 回归方程显著性检验
- 参数β0与β₁的区间估计
- 预测