-0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似

2020-04-20  本文已影响0人  emm_simon

[相关性检验参考link]
[独立性检验参考link]
[分布的相似性参考link]

-1- 两随机变量相关性检验

前提背景:有两个随机变量:一拨15岁同龄人群,他们三年后的高考成绩X、十三年后的月收入Y。现在考虑这两个随机变量的相关性:会不会高考成绩越高的人,步入社会后的月收入也越高?这两个随机变量之间有没有明显的相关性?

-1.1- 皮尔森(线性)相关系数

皮尔森相关系数(Pearson Correlation Coefficient)也叫皮尔森积差相关系数(Pearson Product-Moment Correlation Coefficient),是用来反映两个随机变量 相关程度的统计量。
注意⚠️这里只是说两个变量之间的相关性,并不一定是因果关系,也有可能在客观世界中是一因的两果,比如努力程度(因)决定的高考数学成绩(随机变量X-果1)和高考理综成绩(随机变量Y-果2)。
或者说用来计算两个向量的相似度,用于在基于向量空间的文本分类、用户喜好推荐系统中的应用。
皮尔逊相关系数的计算公式如下:
\begin{equation}\begin{split} \rho_{X,Y} &= \frac {cov(X, Y)} {\sigma_{X}\sigma_{Y}}\\ &= \frac {E((X - \mu_X)·(Y - \mu_Y))} {\sigma_{X}·\sigma_{Y}} \\ &= \frac {E(XY)-E(X)·E(Y)} {\sqrt{E(X^2)-E^2(X)}·\sqrt{E(Y^2)-E^2(Y)}} \end{split}\end{equation}
其中:
* cov(X, Y)是协方差
* \sigma_{X}\sigma_{Y}是两个变量标准差的乘积,显然要求随机变量X、Y的标准差都不能为0。

当两个变量的线性关系增强时,相关系数趋于-11,正相关时趋于1,负相关时趋于-1
当两个变量相互独立时,相关系数为0,但反之不成立

* 相关系数为0,并不一定是两个随机变量相互独立
比如,两个随机变量X、Y满足y_i = x_i^2,X服从[-1, +1]上的均匀分布,此时:
E(X, Y) = 0E(X) = 0,所以:
\rho_{X,Y} = \frac{cov(X, Y)}{\sigma_{X}\sigma_{Y}}= 0

但是,X、Y满足y_i = x_i^2,明显不是两个互相独立的随机变量。所以不相关独立不能划等号。
YX服从联合正态分布时,其不相关独立是可以划等号的。

* 居中变量的相关系数 & 样本集合向量间夹角的cosin函数
什么是居中随机变量?对样本集中的每一个样本,减去它们的均值,这样处理后的样本均值就是0,我们称之为居中随机变量
对于居中的数据来说,我们有E(X) = E(Y) = 0,此时有:
\begin{equation} \begin{split} \rho_{X,Y} &= \frac {cov(X, Y)} {\sigma_{X}·\sigma_{Y}} \\ &= \frac {E((X-\mu_X)·(Y-\mu_Y))} {\sigma_X·\sigma_Y} \\ &= \frac {E(XY)-E(X)·E(Y)} {\sqrt{E(X^2)-E^2(X)}·\sqrt{E(Y^2)-E^2(Y)}}\\ &= \frac {E(XY)}{\sqrt{E(X^2)}·\sqrt{E(Y^2)}} \\ &= \frac {\frac{1}{N}\sum_{i=1}^{N}{x_i·y_i}}{\sqrt{\frac{1}{N}\sum_{i=1}^{N}{x_i^2}}·\sqrt{\frac{1}{N}\sum_{i=1}^{N}{y_i^2}}}\\ &= \frac {\sum_{i=1}^{N}{x_i·y_i}}{\sqrt{\sum_{i=1}^{N}{x_i^2}}·\sqrt{\sum_{i=1}^{N}{y_i^2}}}\\ &= \frac {\overrightarrow{X}·\overrightarrow{Y}}{||\overrightarrow{X}||*{||\overrightarrow{Y}||}}\\ &= cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}) \end{split} \end{equation}

即:\rho_{X,Y} = cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}),两个随机变量的相关系数可以看作是其样本集向量间夹角的cosin()函数。

进一步,当样本向量归一化后,有||\overrightarrow{X}|| = ||\overrightarrow{Y}|| = 1
此时,相关系数即为两个向量的点积:\rho_{X,Y} = cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}) = \overrightarrow{X} ·\overrightarrow{Y}

-1.2- 秩相关系数

常用的秩相关系数有:Spearman秩相关系数、Kendal秩相关系数。这里我们着重讲Spearman秩相关系数。

上面我们讲到了Pearson线性相关系数

-2- 两随机变量独立性检验

-3- 两个概率分布的相似性

上一篇 下一篇

猜你喜欢

热点阅读