小教程收藏生物统计

概率分布让我又恨又爱

2018-09-23  本文已影响142人  刘小泽

刘小泽写于18.9.23
之前对这块知识又渴望又敬畏,感觉无从下手。😦
但是硬骨头总归要啃,从头开始,一点点来弥补知识漏洞
顾名思义,“概率分布”:先看“概率”,概率怎么得到的,不得有数据吗?至于“分布”,不就是数据的统计形状吗?
因此,搞明白了前后顺序,我们先来看什么是数据🤔

数据是什么?

数据在统计学中也叫随机变量,有两种类型:离散型和连续型

离散型数据

还是顾名思义【因为既然人家给翻译成这样,就一定有他的道理,否则大众不可能接受。相信“存在即合理”】离散数据就是不连续的数据。最典型的就是抛硬币,因为结果只有两种:要么正面,要么反面。它就像草坪上的小石板路,一块隔着一块铺起来,每一块石板是一个数据,并且他们之间存在间隔

连续型数据

它可以取任意的数值,比如时间,可以随意分隔,就像一条柏油马路,那么平滑、连绵,你可以连续往下走

数据集

不管离散还是连续的数据,整合到一张表格中,就是一个数据集。它最大的特点就是模糊,最擅长的就是让人为之发疯。因为感觉无据可循,十分模糊

问题来了,面对庞杂的数据集,怎么分辨主次呢?

将数据简化的方法就是:选几个有代表性的,能描述整体特点的数字,比如学了一个学期的结果,用一个学分绩点就能代表,4.0最高,3.0以上说明还不错,2.0嘛,估计~_~。这个事情有个专有名词——描述性统计,就是用几个描述变量就能得知数据的整体情况。再如:要买一部手机,怎么算好手机呢?通过比较价格、外观、性能等等指标,就能帮你做出一个相对合理的判断。

问题又来了,我现在知道了可以用几个指标来判断整体情况,那么统计学中要用哪几个指标呢?

  1. 平均值:这个最常见了,某某班的平均成绩最高,班主任当然高兴啦,但是就个别成绩差的学生而言,他的压力可比普通班的学生大多了。这个例子表明,平均值的缺点就是对异常值不敏感,很容易收到极端值的影响。什么“平均薪水”、“平均身高”等等,都要慎重看待
  2. 四分位数:我们常见的箱线图就是描述四分位数,它有两个作用: a.比较不同的数据整体情况;b.识别异常值,Tukey's test用的就是四分位数
  3. 标准差:描述数据的波动大小,看数据是否稳定,比如老师分析某个学生考试发挥水平
  4. 标准分:也叫z分数,将原始分数与团体的平均数之差除以标准差所得的商数,表示某些数据的相对排名,可以比较不同的数据集,比如升学时用标准分计算出来的值就可以代表学生的整体排名,对于学校选择可以提供帮助

概率分布是什么?

概率分布 = 数据+分布,横轴表示数据值,纵轴表示数据值对应的概率
数据类型决定概率分布。切记:别记公式,记不住,也没用,R语言全能算,自己只需要知道什么时候套用什么模型就好啦

概率分布也分为两种:离散型概率分布,连续型概率分布

大体知道了这两种分布类型,统计学就围绕着它们开始了研究,并且发现众多的数据分布中,就有几种形状反复出现,感觉就像一个“概率模版”一样,记住这些模版,以后遇到数据直接套用

离散型概率分布

想得到一个特定数值的概率,还是拿离散型数据:抛硬币来说,正面朝上的概率是p(正面)=50%。包括以下几种:

连续型概率分布

要算出中间每一个数值对应的概率是不现实的,那是随机变量。而你关心的应该是连续变量,也就是随机变量在某个区间内取值的概率,此时的函数叫做概率密度函数。

举个例子:比如早上8点上课前学生们都会聊会天,什么时候安静取决于老师什么时候进教室,老师可能7点59分59秒进来,可能8点2分10秒进来,但是这可能不是大家所关心的,而且也算不完,因为时间点太多了。学生们实际关心的应该是在7点55到8点整老师进来的概率,因此来决定自己有多大的聊天机会


关于差异统计

做实验的处理和对照,肯定有差别,但怎么设定这个标准,张三说两组差1叫有差别,李四说两组得差5才叫有差别。科学嘛,没有证据就没法证明,于是在统计学的基础上,产生了众多的检验方法。怎么选择检验方法至关重要,因为有时候自己对概念的模糊,导致选错方法,得到的结果是完全不同的

一个重要的选择标准就是,数据总体分布是否符合正态分布和方差齐性

Shapiro-Wilk test检验是否符合正态分布(p大于0.05是正态分布);
Levene's test检验方差齐性(p大于0.05表示方差齐)

第一类:参数检验

总体的分布类型已知,用样本指标对总体参数进行推断或者进行假设检验

前提:方差齐性、正态分布

比如:T检验(多数人钟爱的检验方式)【两组之间比较差异】;

ANOVA (Analysis of Variance方差分析,又称“变异数分析”,研究数据波动情况) 【多组之间比较:如果p值大于0.05,表示各组总体均值相等】

第二类:非参数检验

不考虑总体分布类型是否已知,不比较总体参数,只比较总体的分布位置是否相同,用来检验数据是否来自同一个总体

前提:总体分布不能确定(不知道是不是正态分布)

比如:Metastats,Wilcoxon rank sum test,Welch’s t-test等【两组之间比较差异】;

Kruskal-Wallis【多组之间比较,如果p值大于0.05,表示各组总体均值相等】

更多非参方法:


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇 下一篇

猜你喜欢

热点阅读