如何证明 Pearson 相关系数的值域为 -1 到 1

2018-06-07 本文已影响108人刘思宁

Pearson 相关系数是一个用来度量2个变量间线性关系强度的统计量。这听起来有点绕，但用图形解释会很直观：

图中的 ρ 即为 Pearson 相关系数。这张图表示计算得到的 Pearson 相关系数的不同情况。

（在二维坐标下）2个变量形成一个点，这些点是否大致沿着一条直线发展。如果正好在一条直线上，那么相关系数是1，或者-1。

但问题来了，为什么是 1 或 -1 ？更进一步，为什么各种地方都说 Pearson 相关系数的值域是[-1, 1] ？我搜索了一些地方，但是没有直接的证明，所以看看能不能自己填补一下这个。

根据国内某教材给出的计算公式^[1]，我完全看不出来为什么：

如果我是当年还在上学的我，觉得考试能得分就行了，顶多就把公式背下来，恶劣一点还会想办法不用背下来。但今天，学习是为了解决问题，不多理解一点这个公司在现实中的因果（而不是在分数上的因果），不太敢拿来解决问题^[2]。

其实，Pearson 相关系数更本质的计算方法是，变量1的各个数据点到平均数的距离（以标准方差为一个距离单位，下同）乘以变量2对应的数据点到平均数的距离，的平均值。或者说，就是变量1的各个数据点的 P 值，乘以变量2对应的数据点 P 值，的平均值。

写成表达式，就是：

最后得到的表达式意味着啥？

假设我们有两个向量，一个向量是：

另一个向量是：

再想想向量的点乘是什么：

这样，表达式的分子就是 x.y

而分母是||x|| . ||y||

x.y / ||x|| . ||y|| 也就是 cosø，cosø 的值域是 [-1, 1]。

关键词

Pearson’s r, Pearson coefficient correlation, range, prove, 线性相关系数，皮尔逊相关系数，值域，证明，