如何证明 Pearson 相关系数的值域为 -1 到 1
2018-06-07 本文已影响108人
刘思宁
Pearson 相关系数是一个用来度量2个变量间线性关系强度的统计量。这听起来有点绕,但用图形解释会很直观:
图中的 ρ 即为 Pearson 相关系数。这张图表示计算得到的 Pearson 相关系数的不同情况。(在二维坐标下)2个变量形成一个点,这些点是否大致沿着一条直线发展。如果正好在一条直线上,那么相关系数是1,或者-1。
但问题来了,为什么是 1 或 -1 ?更进一步,为什么各种地方都说 Pearson 相关系数的值域是[-1, 1] ?我搜索了一些地方,但是没有直接的证明,所以看看能不能自己填补一下这个。
根据国内某教材给出的计算公式[1],我完全看不出来为什么:
如果我是当年还在上学的我,觉得考试能得分就行了,顶多就把公式背下来,恶劣一点还会想办法不用背下来。但今天,学习是为了解决问题,不多理解一点这个公司在现实中的因果(而不是在分数上的因果),不太敢拿来解决问题[2]。
其实,Pearson 相关系数更本质的计算方法是,变量1的各个数据点到平均数的距离(以标准方差为一个距离单位,下同)乘以变量2对应的数据点到平均数的距离,的平均值。或者说,就是变量1的各个数据点的 P 值,乘以变量2对应的数据点 P 值,的平均值。
写成表达式,就是:
最后得到的表达式意味着啥?
假设我们有两个向量,一个向量是:
另一个向量是:
再想想向量的点乘是什么:
这样,表达式的分子就是 x.y
而分母是||x|| . ||y||
x.y / ||x|| . ||y|| 也就是 cosø,cosø 的值域是 [-1, 1]。
关键词
Pearson’s r, Pearson coefficient correlation, range, prove, 线性相关系数,皮尔逊相关系数,值域,证明,