统计学 学习笔记

2022-06-07  本文已影响0人  小牛学生信

概率论

随机事件和概率及其分布
随机事件
变异
概率分布

数理统计

统计资料类别及其展示
统计资料类别

连续和离散型变量形式上区别在于是否有小数点,连续型可以取任意值,比如身高体重,离散型之能是整数比如疼痛评分。
无序分类和有序分类主要区别在于是否看作有一定等级。如职业血型都是无序;疗效(如显著,有效、无效)、严重程度(如轻,中,重)有固定顺序

  1. 计数资料转化成连续资料的契机
    计数资料一般采用Poisson回归,当计数资料足够多时,是否可以采用一般线性模型(如线性回归)分析?
    答:看情况
  2. 分类资料中无序和有序是如何确定的
    两组无序变量可采用卡方检验,有序分类可考虑秩和检验。

如果研究目的关注等级或者程度上的差异,则可将其作为有序分类变量;如果只是想看构成,并不关注程度上的区别,则视为无序资料。

  1. 连续资料转换成分类资料
    连续资料在转换成分类资料时,会损失一定信息,但是以下两种情况可以考虑

例如:BMI在做变量时,BMI增加2,高血压风险增加1%,意义不大。换成肥胖与正常,高血压风险增加10%

  1. 连续资料如何分组(寻找cut-off值)

利用ROC曲线找出cut-off值,其前提必须有一个明确的二分类结局

无须二分类变量

统计资料showtime
理论上

集中趋势:平均数和均数
变异程度:方差和标准差
活动范围:自由度
相对位置:百分位数;Z值度量

Z=(x-u)/ρ

Z值常用于比较不同单位指标,判断异常值

比例和率区别

类别 描述 例子 意义
比例 静止的,就是一个时刻算出来的结果 比如:统计今天看了日本动作片的人中,男生比例 类别的含义
动态的,要很长时间观察才能知道的答案 比如:男生在看日本动作片的比例,一直在变 强调严重性和强度

正确展示百分比:原则就是:每个分组变量内合计为100%。

实操

多元数据特征与相关性分析

从一维向量到二维平面是一次巨大飞跃!!!多了很多的属性,在这个方面才可以谈相关性

二元数据的数字特征及相关系数
二元数据的相关性检验
p值判断有没有显著性(相关不相关),相关系数反应自变量变化会随着因变量变化改变幅度。
pearson检验
spearman秩检验
kendall秩检验

硬度(x1) 变形(x2) 弹性(x3)
65 45 27.6
70 45 30.7
70 48 31.8
69 46 32.6
66 50 31
67 46 31.3
68 47 37
72 43 33.6
66 47 33.1
68 48 34.2

协方差矩阵:无论多少次观察,只把每一个方向看成一个数字对待

> cov(rubber)
          x1         x2        x3
x1  4.766667 -1.9444444 1.9344444
x2 -1.944444  3.8333333 0.6166667
x3  1.934444  0.6166667 6.1898889

rubber就是上面表格数据,类似于三维,就是三个特点,方向或者属性,whatever,进行了10次观察,抽样,得出的数据,cor()就是求出协方差矩阵,通俗的说就是:在三个属性上进行投影。

相关矩阵

> cor(rubber)
           x1         x2        x3
x1  1.0000000 -0.4548832 0.3561291
x2 -0.4548832  1.0000000 0.1265962
x3  0.3561291  0.1265962 1.0000000

相关性检验

> cor.test(~x1+x2,rubber)

    Pearson's product-moment correlation

data:  x1 and x2
t = -1.4447, df = 8, p-value = 0.1865
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.8430535  0.2448777
sample estimates:
       cor 
-0.4548832 

p-value = 0.1865,→x1,x2不相关

多元数据图形表示方法
轮廓图
星图
调和曲线图

假设检验

利用样本数据对某个事先做出的统计假设按照某种设计好的方法进行检验,判断此假设是否正确。

一般步骤:
1.对待检验的未知参数θ,根据问题的需要作出一个单边或者双边的假设。选择假设的原则是:事先有一定信任度或者出于牟总考虑是否要加以“保护”
2.选定一个显著性水平α,最常用α=0.05
3.构造一个统计量g,g的大小反映对H0有利或不利,拒绝阈有形式W={g∈C}
4.根据显著性水平α的检验定义,来确定W.

假设检验的两类错误
I类错误:否定了真是原假设,犯一类错误概率定义为显著性水平α
II类错误:接受了错误原假设,犯二类错误的概率常用β表示
功效:否定了错误的原假设,常用π表示,π=1-β

正态总体均值的假设检验

例:一批原件服从正态分布,159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170.
是否有理由认为原件平均寿命大于225h?

#alternative=“greater”表示单边假设(H1:μ>μ0),mu表示原假设μ0#
> t.test(lqq_4,alternative = "greater",mu=225)

    One Sample t-test

data:  lqq_4
t = 0.66852, df = 15, p-value = 0.257
alternative hypothesis: true mean is greater than 225
95 percent confidence interval:
 198.2321      Inf
sample estimates:
mean of x 
    241.5 
    #P值=0.257>0.05,不能拒绝原假设,接受H0,即认为平均寿命不大于225h#

例:标准方法:78.1,72.4,76.2,74.3,77.4,78.4,76,75.5,76.7,77.3
新方法:79.1,81,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1
两样本相互独立,且分别来自正态总体,问新方法是否提高得了

#less表示单边假设,H1:μ1<μ2,var.equal是逻辑变量,var.equal=TRUE表示两总体方差相等#
> t.test(lqq_5,lqq_6,var.equal = TRUE,alternative = "less")

    Two Sample t-test

data:  lqq_5 and lqq_6
t = -4.2957, df = 18, p-value = 0.0002176
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -1.908255
sample estimates:
mean of x mean of y 
    76.23     79.43 
    #P值0.0002176(<0.05),拒绝原假设,即认为新操作能够提高方案#

例:标准方法:78.1,72.4,76.2,74.3,77.4,78.4,76,75.5,76.7,77.3
新方法:79.1,81,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1
两样本相互独立,且分别来自正态总体,问新方法是否提高得了

> t.test(lqq_5-lqq_6,alternative = "less")

    One Sample t-test

data:  lqq_5 - lqq_6
t = -4.2018, df = 9, p-value = 0.00115
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
      -Inf -1.803943
sample estimates:
mean of x 
     -3.2 

正态总体方差的假设检验

二项分布总体的假设检验

有一批蔬菜种子平均发芽率p0=0.85,现随机抽取500粒,用种衣剂浸种处理,结果有445粒发芽,试检验种衣剂对种子发芽率有无效果
H0:p=p0=0.85,H1:p≠p0

#binom.test(x,n,p=0.5,alternative=c("two.sided","less","greater"),conf.level=0.95,  x表示成功次数,n是试验总数,p是原假设概率#
> binom.test(445,500,p=0.85)

    Exact binomial test

data:  445 and 500
number of successes = 445, number of trials = 500, p-value
= 0.01207
alternative hypothesis: true probability of success is not equal to 0.85
95 percent confidence interval:
 0.8592342 0.9160509
sample estimates:
probability of success 
                  0.89 
                  #P值= 0.01207<0.05,拒绝原假设,认为种衣剂对种子发芽率有显著效果#

据以往经验,新生儿染色体异常率为1%,某医院观察当地400名新生儿,只有1例染色体异常,问该地新生儿染色体异常是否低于一般水平?
H0:p≥0.01,H1:p<0.01

> binom.test(1,400,p=0.01,alternative = "less")

    Exact binomial test

data:  1 and 400
number of successes = 1, number of trials = 400, p-value =
0.09048
alternative hypothesis: true probability of success is less than 0.01
95 percent confidence interval:
 0.0000000 0.0118043
sample estimates:
probability of success 
                0.0025 
                #P值=0.09048(>0.05=α),并不能认为该地区新生儿染色体异常率低于一般水平。另外从区间估计值也可以说明,上限0.0118043>0.01#
非参数检验

参数检验:在统计推断问题中,若给定或假定了总体分布的具体形式(如正态分布),只是其中含有若干未知参数,要基于来自总体的样本对参数做出估计或进行某种形式的假设检验,这种推断方法称为参数方法。
非参数检验:在实际问题中,很难对总体的分布形式作出正确的假定,最多能对总体分布作出诸如连续型分布、关于某点对称分布等一般性假定。这种不假定总体的分布形式,尽量从数据(或样本)本身来获得所需信息的统计方法称为非参数检验。

Pearson拟合优度x²检验

Kolmogorov-Smirnov检验

列联表数据的独立性检验

符号检验

秩检验

秩统计量:就是按大小排序后其所在位置数,具有分布无关性

Wilcoxon秩检验

t检验
卡方检验
方差分析
参数估计
类别 概念 优点 缺点
点估计 一个统计量来估计一个未知参数 “未知参数有多大” 不能反映估计的可信程度
区间估计 两个统计量所构成的区间来估计一个未知参数 该区间覆盖住这个参数的可靠程度(置信度) 不能直接得出未知参数的值

估计量的优良性准则

一次抽样中得到的估计值不一定恰好等于待估参数真值,但大量的重复抽样(样本容量相同)时,所得到的估计值平均起来应与待估参数的真值相同。
换句话说,我们希望:估计量的数学期望应等于未知参数的真值

无偏估计量不唯一时,倾向于更集中与待估计参数的真值的附近,即哪一个估计量的方差更小
如果存在一个估计量θ的方差最小,则此估计量最好,称为最小方差无偏估计。

区间估计

均值为μ的区间估计:总体方差已知和方差未知
方差ρ²的区间估计:总体均值已知和总体均值未知

均值差μ1-μ2的区间估计
配对数据情形下均值差μ1-μ2的区间估计
方差比 ρ₁²/ρ₂²的区间估计

例:已知两组数据
A:79.98,80.04,80.02,80.04,80.03,80.03,80.04,79.97,80.05,80.03,80.02,80.00,80.02
B:80.02,79.94,79.98,79.97,79.97,80.03,79.95,79.97
求二者区间估计

> var.test(lqq_2,lqq_3)

    F test to compare two variances

data:  lqq_2 and lqq_3
F = 0.58374, num df = 12, denom df = 7, p-value = 0.3938
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.1251097 2.1052687
sample estimates:
ratio of variances 
         0.5837405 

某些问题,只关心 θ在某一方向上的界限。例如:对于设备的寿命,关系平均寿命的“下限”,考虑废品率时,关心的是参数p的“上界”,称这类问题是单侧区间估计

一个总体求均值
一个总体求方差
求个总体求均值差
求两个总体方差

常用分析方法
回归分析

通常,变量之间关系有两大类一类是变量间有完全确地的关系,函数关系;另一类变量之间有一定的关系,回归分析是研究这一类问题规律的方法

回归分析中,变量分为两类,一类是因变量,实际问题关系的一类指标,通常用Y表示;一类是自变量,用X1,X2,X3,X4,表示

回归分析研究的主要问题是:
(1)确定Y与X1,X2,X3,X4,Xp间的定量关系表达式,这种表达式称为回归方程
(2)对求得的回归方程的可信度进行检验;
(3)判断自变量Xj(j=1,2,3,……p)对Y有无影响
(4)利用所求得回归方程进行预测和控制

一元线性回归

上一篇下一篇

猜你喜欢

热点阅读