小样本OLS回归的框架
1 最小二乘法的历史
不管是学习机器学习、计量经济学、数理统计,很多人接触到的第一个算法就是最小二乘法(least squares method)。
这是一个非常古老的方法。早在18世纪早期,在天文学和航海领域就已经出现了最小二乘法的思想。真正意义上第一个正式发表该方法是在1806年的法国科学家Legendre,而数学王子Gauss据说在更早时候就发现了该方法,但直到1809年他在发表计算天体运动轨道时才正式使用,两人也为谁是第一个发现的争论不休。
Gauss毕竟是数学王子,1829年,他又首次证明出,在线性无偏估计量的类中,OLS估计具有最小的抽样方差。在他的证明中,假设了线性回归模型中的误差项是独立且正态分布的,后来,由Markov将假设放宽到只需要误差项不相关、同方差且期望为0即可。因此,该定理最终被命名为Gauss-Markov定理。
2 小样本OLS回归的框架
做OLS回归是为了什么?简而言之,在假设了数据生成过程并收集到一系列的数据之后,我们可以做的事情有3个,这也是我们学习OLS回归的路线:
- 得到系数的点估计;
- 判断数据拟合得如何?
- 得到系数的区间估计,进行假设检验。
首先,我们先利用数据得到点估计,由此还可以得到它的一系列性质,然后,可以通过计算如等一系列指标来说明拟合得如何,最后,在得到区间估计后,可以对预先的有关于系数的假设进行假设检验。
2.1 点估计及其性质
在使用OLS回归之后,可以得到
这就是系数的点估计,可以看下它有什么样的性质。
首先,它是的线性组合,具有线性性,另外,在施加一些假设后,它的条件期望是对系数的无偏估计,即,而它的方差则由Gauss-Markov定理保证了是最小的,这就是“BLUE”(Best Linear Unbiased Estimator)。
2.2 拟合优度
对于拟合优度,基础的指标有中心化或非中心化。
而对于模型的选择来说,如果用作为模型选择的标准,则很明显,加入的自变量越多,就会越高,因此需要用其他的指标。如AIC(Akaike Information Crierion)、BIC(Bayesian Information Crierion)、调整即等,都可以来选择模型。
2.3 区间估计与假设检验
若假设(其中未知),则也相应地服从正态分布,因此可以得到它的区间估计。但得到它的区间估计并不是我们的最终目的,我们的最终目的是要检验如(其中为矩阵)这样的假设是否成立。
由统计学知识可知,可构造出这样的二次型
上式虽然可以证明它服从分布,但左侧的我们却不知道,因此我们无法利用上式构造统计量。
一个解决办法是用估计,可以证明,这样估计是无偏的,即,且满足
和
因此,我们可以构造一个统计量进行检验:
这样可以联合检验有关系数的个线性假设,只需将假设写成的形式即可。若只需检验一个假设,即,则因,故统计量可化为分布,直接进行检验即可。