临床统计

345:Sta base(5)---离散型概率分布

2024-06-30  本文已影响0人  SASPRO的打工人生活

最近有一本统计学的书挺火的,叫做《基础统计学-第14版》,我看了一下,挺好的,很多概念不像我以前看的统计学书那么枯燥,相对更浅显易懂一点,然后强烈建议看实体书!我发现看实体书真的更容易看下去,或者说这本书本来就相对通俗一点。我看得很多书都是到正态分布就看不下去了!

我介绍统计学相关的知识,肯定不是像书本里面那么细致,比如我肯定不会介绍什么是众数,什么是中位数,但是书中为了系统的讲述知识点,肯定会花一些篇幅介绍。这个系列的文章相当于我的读书笔记,都是我自己的理解(所以可能会出错),但是肯定是递进的讲的。

这本书中讲到一个概念,就是

参数描述总体某些特征的数值型度量

统计量是描述样本某些特征的数值度量。

那平时我们做项目可以说求得都是统计量。书中说到可以用总体参数和样本统计量来避免混淆。

比如说总体均值μ就是一个参数;总体标准差σ就是一个参数;

样本均值X拔(我记得高中数学老师说这叫X拔,就是在X上面有一条横杠,书中是说叫X杠,我也不费劲打出来了);样本标准差叫s。上面这几个符号大家要记住!!!  

这次简单讲一下概率分布,那么首先会讲到随机变量(通常用x表示),它是对某个过程的某个结果都有一个随机确定的单个值。比如扔一个硬币,x=扔到正面或者x=扔到反面。

对应着对于随机变量的每个值,都能给出一个特定的概率,这就是概率分布。比如P(X=硬币扔到正面)=0.5,P表示概率,就是概率那个英文单词的首字母。需要注意的是,概率之和必须为1,同时对于任一随机变量,有0≤P(X)≤1,我觉得这个应该挺好理解的。

然后随机变量又可以分成离散型的或者连续型的,对应的也会有离散型概率分布连续型概率分布

对于离散型概率分布,我们可能会听到什么二项分布、泊松分布等等;而常用的正态分布属于连续性概率分布,这个后面再讲。

当然了二项分布我不可能把定义啊,公式都给你写出来,我只会联系我们的项目,比如在写总体最佳疗效这张表的时候,求客观缓解率一般用使用Clopper Pearson方法计算ORR的95%置信区间,对应到SAS的过程步是proc freq,为什么不用proc glm或者proc mixed呢?

这时候我们就得理解,求客观缓解率,分为达到ORR和没达到ORR,就这两种情况,是Yes或者No的情况,还有比如说看看血尿酸有没有降到360,那么就分为降到360的受试者和没有降到360的受试者,要么这个,要么那个,不会有第三种情况。这就符合二项分布的要求之一:每次实验的结果有且仅有两种可能。

同时还满足:任何一次试验的结果不会影响到其他试验的概率,比如降到360的受试者的概率会影响到降到360的受试者的概率吗?不会的。所以也满足二项分布的另一个要求。当然满足二项分布要满足4点要求。其他两点略。

对于求置信区间,Clopper Pearson方法是基于精确的二项分布,对应proc freq的具体实现,参考SAShelp的说明

上一篇下一篇

猜你喜欢

热点阅读