相关性分析方法
2019-01-03 本文已影响16人
榴莲气象
就适用性来说,kendall > spearman > pearson ,在考察两两变量间相关关系时,应了解两变量的变量类型以及是否有正态性,然后决定使用哪个系数。
(连续资料时)spearman和pearson可以同时使用。(分类资料时)spearman和kendall可以同时使用。(一个分类一个连续)此时用kendall。
pearson双变量相关分析适用条件:
1.双变量需为两连续变量;(与研究设计相关,由研究的资料所决定)
2.两个连续变量之间来源同一个观察测量个体;(与研究设计相关,由研究的资料所决定)
3.两个变量之间存在线性关系;(通常用散点图进行检验该条件)
4.两变量之间无异常值;(通过利用散点图进行观察,如有异常值,对pearson相关影响是非常大的,对于异常值的处理办法有a.保留异常值:①将两个变量中的一个或者两个进行数据转化;②将异常值纳入进行分析,在报告中注明异常值。b.剔除异常值,结合相关的专业知识以及分析异常值的来源,剔除异常值进行分析,但在报告中需注明原因及异常值情况。)
5.两个变量应该满足双变量正态分布。(最常用的的检验是W检验,即shapiro-wilk检验、D检验,即kolmogorov-smirov检验、P-P图、Q-Q图等,值得注意是,pearson相关分析对非态性分布具有一定的抗性,当遇到非正态分布数据时候,也可以尝试计算pearson相关系数。)
pearson相关系数的取值范围在[-1,1] ,‘负’代表负相关,‘正’代表正相关。0<=|r|<0.3,低相关;0.3<=|r|<0.8,中相关;0.8<=|r|<=1,高相关。需注意,相关关系不等于因果关系。相关关系表示等号两边的变量会同时发生变化,而因果关系,是由于一个变量引起另一个变量发生变化。
参考:
如何选用Pearson、Spearman、Kendall三大相关系数
SPSS之数据分析——pearson双变量相关分析