R语言回归分析学习笔记-0704

2021-07-04  本文已影响0人  数据斯基

学习课程:【R语言入门】回归分析 手把手教你操作

问题1

残差是啥意思?

问题2

自由度是啥意思?就是样本量减2吗?

问题3

假设检验的时候是假设β1是等于0,如果假设β1不等于0,应该怎么求检验?

问题4

什么是z分布,什么是t分布?有什么区别?

问题5

(1-pt(6.740,df=model$df.residual))*2

这个公式啥意思?为啥乘以2?

简单线性回归

最小二乘法介绍

Intercept是截距,X是回归系数,0.903,显著不为0,即身高没增加1个单位,体重便增长0.903个单位。
weight和height的关系,用最小二乘法算出来的线性回归方程为:y=-86.318+0.903x。

abline(model,col="red")
给散点图加上模型的线性回归方程的函数图像

加上方程图像 模型summary

根据上图,可以看出,R的平方0.1487,表明模型可以解释体重14.87%的方差,它也是实际和预测值之间的相关系数。

Residual standard error 18.63是随机误差项,RSE,残差平方和除以自由度开根号。

RSE

on 260,是指残差自由度260。

F-statistic: 45.43 on 1 and 260 DF,F检验
p-value: 1.018e-10,P值。
value,6.740,就是t值。

假设检验:身高与体重是否呈线性关系?

假设β1是等于0,即y=kx+b中的k等于0,身高和体重没有线性关系。

三种方法

区间估计法

先求t值,t=qt(P值),需要95%的置信区间,第一个值设置0.05/2=0.025

qt(0.025,df=model$df.residual)
[1] -1.96913
t = -qt(0.025,df=model$df.residual) #负号是求相反数,得正值

求得区间估计:

c(0.903-t0.134,0.903+t0.134)
[1] 0.6391366 1.1668634

没有包含0,可以拒绝原假设,身高和体重是有线性关系的。

P值法

p值法是默认身高服从正态分布的,但正态分布的样本量太少,因此使用t分布,而不使用z分布。t分布的残差自由度是n-2。

P值法公式

先把β1标准化,再减去假设值(β=0),再除以样本标准误差(SE)

用pt就可以不用查表就知道是否小于0.05。

(1-pt(6.740,df=model$df.residual))*2 ## 这个公式啥意思?为啥乘以2?
[1] 1.016875e-10

计算出p值小于0.05,可以拒绝原假设,认为身高和体重有线性关系。

F检验下节课。

上一篇下一篇

猜你喜欢

热点阅读