2019-04-16

2019-04-16 本文已影响0人 AliceGYY

计算连续数据间的相关性

一、pearson

Pearson相关系数（Pearson CorrelationCoefficient）是用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性关系。

求解相关系数，整个计算过程与向量夹角余弦公式差不多。对于pearson相关系数的计算来说，只不过要在计算前将每组数据减去其均值。

值域等级解释

相关系数的绝对值越大，相关性越强：相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度：

相关系数 0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

二、spearman

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本，n个原始数据被转换成等级数据，相关系数ρ为

原始数据依据其在总体数据中平均的降序位置，被分配了一个相应的等级。如下表所示：

变量Xi降序位置等级xi

0.855

1.24

1.23

2.322

1811

实际应用中，变量间的连结是无关紧要的，于是可以通过简单的步骤计算ρ.被观测的两个变量的等级的差值，则ρ为

三、kendall

Kendall(肯德尔)系数的定义：n个同类的统计对象按特定属性排序，其他属性通常是乱序的。同序对（concordant pairs）和异序对（discordant pairs）之差与总对数（n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。

属性：

1）如果两个属性排名是相同的，系数为1 ，两个属性正相关。

2）如果两个属性排名完全相反，系数为-1 ，两个属性负相关。

3）如果排名是完全独立的，系数为0。

举例：

假如我们设一组8人的身高和体重在那里A的人是最高的，第三重，等等：

Person A B C D E F G H

Rank by Height 12345678

Rank by Weight 34125786

我们看到，有一些相关的两个排名之间的相关性，可以使用肯德尔头系数，客观地衡量对应。

注意，A最高，但体重排名为 3 ，比体重排名为 4,5,6,7,8 的重，贡献5个同序对，即AB，AE，AF，AG，AH。同理，我们发现B、C、D、E、F、G、H分别贡献4、5、4、3、1、0、0个同序对，因此，

P= 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.

因而R=(88/56)-1=0.57。这一结果显示出强大的排名之间的规律，符合预期。