Chapter15 相关与回归

2019-10-05  本文已影响0人  升级打怪最欢呀

相关性是变量之间的数学关系,但不意味着因果性
线性回归法是计算最佳拟合线的一种方法
两变量之间可能不是线性的
在样本数据区间内,最佳拟合线能做出估计,但超出范围的毫无把握

如何判断两个变量之间是否有相关性,及如何用自变量预测因变量。
1.二变量可以用散点图具化其相关性
2.最小二乘法计算线性回归线y = ax+b
回归线要穿过点(\bar{x},\bar{y}
终极目标是:误差平方和SSE = \Sigma (y-\hat{y})^2取得最小值:
解得:
斜率 b=\frac{\Sigma ((x-\bar{x})(y-\bar{y}))}{\Sigma (x-\bar{x})^2}
截距a = \bar{y}-b\bar{x}

3.原则上所有的二变量关系都可以求出回归线,但是回归线真的能拟合二变量吗?
答案是否定的,需要用相关系数来判断拟合程度:
相关系数 r = \frac{bs_{x}}{s_{y}}
其中s_{x} = \sqrt{\frac{\Sigma (x-\bar{x})^2}{n-1}}
s_{y} = \sqrt{\frac{\Sigma (y-\bar{y})^2}{n-1}}
相关系数越接近正1,正相关性越强
相关系数越接近负1,负相关性越强
相关系数为0,则不相关
用相关系数可以衡量回归线与数据点的拟合程度,r很接近1时说明回归线估计能发挥作用。

一般来说:
r>0.5 认为是强相关
0.2<r<0.5认为是弱相关
r<0.1或0.05,则认为是无相关

4.通过回归线预测因变量的结果

附:决定系数 r^2代表因变量的变异性的百分之多少可以有自变量确定,是相关系数的平方。

上一篇 下一篇

猜你喜欢

热点阅读