一个列子理解 联合概率 边际概率 条件概率
列联表
理解联合概率、边际概率与条件概率从列联表开始。
列联表是常见的用于描述类别变量间关系的形式。
2X2列联表上面是一个2X2的列联表,存在两个变量,如果存在多个二分变量,任意两个变量便可组成一个2X2的列联表。多个变量之间可以组成多重列联表。列联表涉及三种类型的概率分布:联合概率(Joint Probability),边际概率(Marginal Probability)和条件概率(Conditional Probability).
联合概率 边际概率和条件概率之概念理解
假设有1000个人,两个变量,这里用A、B事件表示,两种状态(是=1、否=0)。
2X2列联表细划联合概率指两个以上事件同时发生的概率,记作P(AB)。表中的每个单元格的计数和概率即表示2种不同事件同时发生的情况,计数代表1000人中在两个事件属于同一种状态所占的人数。联合概率以第一个状态(A=1,B=1)为例,联合概率P(A=1B=1)=306/1000=0.306。
边际概率有行与列两种,行或列的边际概率行或列联合概率之和。比如P(A=1)=P(A=1B=1)+P(A=1B=0)=0.306+0.287=0.593
条件概率指的是基于A事件发生或B事件发生的概率,记作P(B|A)=P(AB)/P(A)=N(AB)/N(A),注:此N(AB)与表里的N(AB)不是同一个,前者指的是属于同一种状态的数目,后者只是一个总数的表达方式。
通俗的讲,条件概率就是属于某一变量的某一特定类别的个体在另一变量各类别的反应情况。例如:在事件A上选“是=1”的个体在事件B的两个选项1和0上的分布情况;或者在事件B上选“否=0”的个体在事件A的两个选项1和0上的分布情况。
以上表中P(B=1|A=1)为例,基于A事件发生B事件发生的概率
P(B=1|A=1)=P(A=1B=1)/P(A=1)=N(A=1,B=1)/N(A=1)=306/593=0.516
以上表中P(A=1|B=1)为例,基于B事件发生A事件发生的概率
P(A=1|B=1)=P(A=1B=1)/P(B=1)=N(A=1,B=1)/N(B=1)=306/515=0.516
如果A的条件分布概率在B的各个水平相等,说明两个变量统计独立。两个变量统计独立等价于联合概率等于边际概率之积,即P(A=xB=y)=P(A=x)*P(B=y)。
列联表统计独立性检验最常用的是皮尔逊卡方和似然比检验。这里就不赘述了。