statquest学习笔记——协方差
2020-04-02 本文已影响0人
Maven
协方差作为检验两个变量总体的误差的标准。方差是两个相同的变量之间的协方差,是协方差的一种特殊形式。
例如现我们已知5个细胞中的gene X的表达情况,我们便可以得知五个细胞中的平均表达量,同时能够了解到该基因在各个细胞中表达差异的大小(通过计算方差得知,如果方差越小,说明在各个细胞中的表达差异越小)
image.png
一、 协方差能够区分两变量之间的关系
另外,我们也知道一个细胞中可以表达多个基因,如果我们知道一个细胞中两个基因的表达量,我们将获得更多的信息,将他们的表达量在坐标中展示。
从图中我们可以看出gene X与gene Y呈现正相关的关系,协方差便是从统计学上来说明两个变量之间的关系。如果两者变化趋势相同(正相关),那么协方差大于零,相反小于零,如果不能从一个变量的变化推测另一个变量的变化趋势,那么协方差为零。
例如:
image.png
image.png
image.png
二、协方差不能做到的两点(1. 无法描述沿着哪种趋势线变化;2. 大小会随着变量变化范围变化而变化)
However,协方差只能够告诉我们两个变量之间是正相关还是负相关或者是否相关,并不能给我们其他的信息。如下图中所示,通过协方差不能知道两个变量是按照哪种趋势线变化的。
image.png
另外,协方差的大小也没有具体的意义,相同趋势下,改变变量的大小,协方差就会发生变化。
image.png
image.png
因此,协方差只是统计中一个基础的计算过程,例如在计算PCA和相关性(correlation)过程中需要用到协方差。
image.png
image.png
接下来就学习correlation和PCA吧。