2019-04-16

2019-04-16  本文已影响0人  AliceGYY

计算连续数据间的相关性

一、pearson

Pearson相关系数(Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系

求解相关系数,整个计算过程与向量夹角余弦公式差不多。对于pearson相关系数的计算来说,只不过要在计算前将每组数据减去其均值。

值域等级解释

相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度:

相关系数 0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

二、spearman

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为

原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示:

变量Xi降序位置等级xi

0.855

1.24

1.23

2.322

1811

实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ.被观测的两个变量的等级的差值,则ρ为

三、kendall

Kendall(肯德尔)系数的定义:n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。

属性:

1)如果两个属性排名是相同的,系数为1 ,两个属性正相关。

2)如果两个属性排名完全相反,系数为-1 ,两个属性负相关

3)如果排名是完全独立的,系数为0。

举例:

假如我们设一组8人的身高和体重在那里A的人是最高的,第三重,等等:

Person A B C D E F G H

Rank by Height 12345678

Rank by Weight 34125786

我们看到,有一些相关的两个排名之间的相关性,可以使用肯德尔头系数,客观地衡量对应。

注意,A最高,但体重排名为 3 ,比体重排名为 4,5,6,7,8 的重,贡献5个同序对,即AB,AE,AF,AG,AH。同理,我们发现B、C、D、E、F、G、H分别贡献4、5、4、3、1、0、0个同序对,因此,

P= 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.

因而R=(88/56)-1=0.57。这一结果显示出强大的排名之间的规律,符合预期。

上一篇下一篇

猜你喜欢

热点阅读