20190811各类算法模型归纳
一、回归模型
1、线性回归
1.1 模型解读
Y=
X 自变量,形式不固定,可以是一次项,也可以是多次项,还可以是指数或对数;个数为1就是一元回归,个数是多个就是多元回归
相关系数(一元叫斜率,多元叫偏回归系数) ,必须是一次项,否则就不是线性回归关系
截距(是常数项),不可省略
ε 随机误差,还可用u或e表示
Y 因变量,只能有一个
1.2 回归三种分析方法,通过估计出参数达到某个值使得ε误差值最小
①、拟合方法:使用数据估计模型参数时所使用的方法
②、最大似然估计法:常用方法,但有争议
③、最小二乘法:常用方法,数据需满足一定假设条件
2、一元线性回归
2.1 模型 Y=
2.2 的最小二乘估计公式
2.3 必须满足的6条假定(高斯马尔科夫假定):
①、线性于参数,即β系数为线性系数
②、随机抽样,即样本是随机抽样得到的,残差无时间序列相关性,解决方法是把时间学列当作一个变量加入模型中。表示残差时间序列相关
③、不存在完全共线性,即每列数据或每个变量任意两两组合不出现完全线性相关,微弱线性相关依据情况可以接受
④、误差(也叫残差)的条件均值为零,若遗漏重要变量会出现不为0.Cov(u,x)=E(u|x)=0
⑤、误差的同方差性,即残差值是恒定的。若残差散点图是左开口或右开口的喇叭状图形,或残差方差随自变量的变化成有规律性波动,则残差呈异方差性。解决方法是对y取ln
⑥、误差的正态性
2.4 假设检验,用t分布检验
2.4.1 假设设定 零假设 :=0; 备择假设
2.4.2 的无偏估计公式
Var()=
Var()=
2.4.3 的无偏估计
(SSR是残差平方和=,n-2是自由度=样本观测个数-待估计的回归参数的个数)
2.4.4 标准误,即标准差的估计量
s.e.()=
s.e.()=
标准误越小估计精度越高
2.4.5 t检验方法
===(a是假设等于的某个值)
当 为真时,服从自由度为 n-2 的学生氏 t分布;若||≥t(n-2,α/2)或p(||)≤α,则拒绝
2.5 预测
2.5.1 对于任意给定的 ,计算因变量 Y 的预测值,,标志误 s.e.()=,(1-α)×100% 的置信区间 ± s.e.()
2.5.2 当 X = ,估计因变量的预测均值,=,标志误 s.e.()=,(1-α)×100% 的置信区间±s.e.()
2.5.3 评估标准
①、t检验
②、(X,Y)散点图和相关系数
③、(Y,)散点图和相关系数
④、误差估计(即 R square,实际是用此方法),总离差平方和SST=,残差平方和SSE=(衡量X对Y的预测能力),解释平方和SSR=(衡量预测误差)
SST、SSR和SSE关系图示2.5.4 决定系数,在 Y 的总变差中能被自变量 X 所解释的部分(所占的比例),反映自变量对因变量的解释能力,范围[0,1]
===
3、多元线性回归
3.1 最小二乘法,估计方式
S()==
最小二乘回归方程=
的拟合值 =(i=1,2,...,n)
普通最小二乘残差 =(i=1,2,...,n)
3.2 偏回归系数
①、 拟合 Y 对 的一元线性回归模型。回归残差是 Y 中与 没有线性关系的部分(经过“调整”后的 Y)
②、拟合 对 的一元线性回归模型。 残差是 中与 没有线性关系的部分(经过“调整”后的 )
③、拟合 对 的一元线性回归模型。回归系数表示去掉 对 Y 和 的线性影响之后,对 Y 的影响(即,经过调整后,对Y的影响。)
3.3 评估
加入了修正的(或叫调整的)=或=
3.4 假设检验,统一的方法是F检验。常见的假设:所有自变量的回归系数均为 0(常常使用此);某些回归系数为 0;某些回归系数相等;回归系数满足某些特定的约束。
SSR(RM)=≥SSR(FM)=
F=(p 为全模式下的待估参数个数,k为简化模型下待估参数个数)
或 F=(p 为自变量个数,n为样本数量,样本的相关系数)
注:全模型(full model,FM) Y=;简化模型(reduced model,RM)某些回归系数取指定值,简化模型中的待估参数的个数少于全模型中待估参数的个数
3.4 方差膨胀因子,衡量自变量之间的相关关系
令表示以为因变量,其余自变量作为自变量的回归模型中的多重相关系数的平方,则 的方差膨胀因子定义为,j=1,2,...,p(p为自变量个数)。VIF∈[1,+∞),[1,3]可以直接用来做变量;(3,7]数据需要稍微处理才能作为变量;(7,10]必须把数据处理后才能作变量;>10 出现共线性,不能直接用作变量,需要改变变量
3.5 变量选择方法
前向选择方法
后向剔除方法
逐步回归法(现在常用的方法,让计算机自己跑即可)