06 OLS的小样本性质
在第五回 CLRM的三大假定情况下,OLS估计量具有以下良好性质:
1.线性性
OLS估计量是线性估计量,(X'X)^-1X' 可以视为系数矩阵,此时beta hat可以视为y的线性组合。
2.无偏性
即beta hat 不会低估或高估β
证明
3.球形扰动项
即扰动性满足“同方差”和“无自相关”的性质,即扰动项的协方差矩阵可以写为:
球形扰动项
- 扰动项条件方差的主对角线元素相同,即“条件同方差”,简称“同方差”,反之若不完全相等,则称为“异方差”
- 扰动项条件方差的非主对角线元素为0,即不同个体的扰动项之间无“自相关”,反之存在自相关
球形扰动项中涉及的“协方差”矩阵有必要展开说一说
协方差矩阵
1. 协方差的意义
标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集。协方差就是这样一种用来度量两个随机变量关系的统计量。
协方差的结果有什么意义呢?
如果结果为正值,则说明两者是正相关的;如果结果为负值, 就说明两者是负相关,;如果为0,则两者之间没有关系,就是统计上说的“线性不相关”(第二回 相互独立、均值独立和线性不相关)
2.协方差矩阵
协方差只能处理二维问题,当维数增加后,自然需要计算多个协方差,自然而然会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
矩阵中的数据按行排列与按列排列求出的协方差矩阵是不同的,这里默认数据是按行排列。即每一行是一个observation(or sample),那么每一列就是一个随机变量。
参考资料:
[线性代数] 如何求协方差矩阵
3.求解协方差步骤
给出两个例子,本质一样的
- 常规型
求解
参考资料:
深度学习中的数学与技巧(6): 详解协方差与协方差矩阵计算 - 线代版
求解
参考资料:
[线性代数] 如何求协方差矩阵
特别注意
理解协方差矩阵的关键就在于
协方差是计算是不同维度之间的协方差,而不是不同样本之间。拿到一个样本矩阵,最先要明确的就是一行是一个样本还是一个维度,心中明确整个计算过程就会顺流而下,这么一来就不会迷茫了。
参考资料:
浅谈协方差矩阵
4.估计量的协方差矩阵
估计量简化
5.高斯-马尔科夫定理
定义:在线性回归模型中,如果误差满足零均值、同方差且互不相关,则回归系数的最佳线性无偏估计(BLUE)就是普通最小二乘法估计。
- 这里最佳的意思是指相较于其他估计量有更小方差的估计量,同时把对估计量的寻找限制在所有可能的线性无偏估计量中。
- 值得注意的是这里不需要假定误差满足独立同分布(iid)或正态分布,而仅需要满足零均值、不相关及同方差这三个稍弱的条件。
对于一元线性回归模型
一元线性
对于多元线性回归模型
多元线性
可以高斯-马尔科夫定理的一个核心假设就是“球形扰动项”~,如果不满足球形扰动项,则该定理不成立。
参考资料:
高斯-马尔可夫定理
5.扰动项方差的无偏估计
估计自由度
大样本
标准误