Stata系列-关于解释变量(工具变量法)
前面我们找到了OLS不一致性的“病因”是由于内生变量和扰动项相关。如果能够将内生变量分成两部分:一部分和扰动项有关,另一部分和扰动项不相关,则我们可以用和扰动项不相关的那部分得到一致估计。
此时对于分离内生变量,可以借助“工具变量”来做。
1.工具变量法
以前面的市场均衡为例,假设存在某个因素(变量)使得供给曲线经常移动,而需求曲线基本不动。此时,便可以估计需求曲线。这里使得供给曲线移动的变量即工具变量。

有效的工具变量需要满足以下条件:

在上例中:

接下来,利用工具变量的这两个性质,可得到对需求方程回归系数β的一致估计。

因此β为:

需要注意:

2.二阶段最小二乘法
工具变量法一般通过“二阶段最小二乘法”来实现,该方法的意思即用过作两个回归来完成。
-
第一阶段回归:用内生变量对工具变量回归
1
-
第二阶段回归:用被解释变量对第一阶段回归的拟合值进行回归

这么做的原因是什么呢?
2SLS是一致估计
需求方程如下:

进一步分解:

分析可以得:

从以上分析中可以看出


在进行2SLS估计时有什么要求呢?
必要条件:工具变量个数不少于内生解释变量的个数,称为“阶条件”

下面扩展考虑多个内生变量+外生变量的情况:

说明:

第一阶段回归:

关于外生变量:

第二阶段回归:

关于估计量:

在球形扰动项的情况下, 2SLS 是最有效率的工具变量法
在异方差的情况下,存在更有效率的工具变量法,即“广义矩估计”(GMM), GMM 是数理统计“矩估计” (MM)的推广。在恰好识别或同方差的情况下, GMM 等价于 2SLS。

*导入数据集
use grilic.dta, clear
*OLS回归(稳健标准误)
reg lnw s expr tenure rns smsa, r
*引入智商iq作为能力的代理变量
reg lnw s iq expr tenure rns smsa, r
*2SLS回归
ivregress 2sls lnw s expr tenure rns smsa (iq = med kww), r first


3.弱工具变量
什么是“弱工具变量”呢?

弱工具变量的后果什么呢?

怎么检验弱工具变量是否存在呢?
可在第一阶段回归中,检验所有方程外的工具变量的系数是否联合为零

经验规则:此检验的F 统计量大于 10 (由于技术性原因,此处使用普通标准误),则拒绝“存在弱工具变量”的原假设
*导入数据集
use grilic.dta, clear
*2SLS回归
ivregress 2sls lnw s expr tenure rns smsa (iq = med kww), r first
*检验是否存在“弱工具变量”
estat firststage

由上表可知,拒绝“存在弱工具变量”的原假设,即不存在弱工具变量~
当存在弱工具变量时,应该怎么办呢?
-
寻找更强的工具变量
-
使用对弱工具变量更不敏感的“有限信息最大似然估计法”(LIML)
- 在大样本下, LIML 与 2SLS 渐近等价
- 在弱工具变量的情况下, LIML 的小样本性质可能优于 2SLS

*导入数据集
use grilic.dta, clear
*2SLS回归
quietly ivregress 2sls lnw s expr tenure rns smsa (iq = med kww)
*检验是否存在“弱工具变量”
estat firststage
*LIML法
ivregress liml lnw s expr tenure rns smsa (iq = med kww), r

该方法的系数估计值和2SLS的非常接近,从侧面表明了“不存在弱工具变量”~
4.过度识别检验(工具变量外生性)
工具变量外生性是保证2SLS一致性的重要条件,如果工具变量与扰动项相关,则可能导致严重的偏差
在恰好识别的情况下,无法检验工具变量的外生性
在过度识别的情况下,则进行“过度识别检验”

则有:



*导入数据集
use grilic.dta, clear
*2SLS回归
ivregress 2sls lnw s expr tenure rns smsa (iq = med kww), r first
*过度识别检验
estat overid

从上表可以得到,p = 0.697,即接受原假设,即工具变量(med kww)是外生的,与扰动项不相关~
5.豪斯曼检验(解释变量内生性)
使用工具变量法是有前提的,即存在内生变量。
如何检验变量是否为内生呢?
如果所有解释变量都是外生的,呢么用OLS就比用工具变量法更有效,因为此时如果用工具变量法,就相当于“无病吃药”;反之如果存在内生解释变量,则用工具变量法有效。
基于以上想法,我们引入“豪斯曼检验”

这里根据沃尔德检验原理,以二次型来度量距离

判断方法如下:

*OLS回归
qui reg lnw iq s expr tenure rns smsa
*保存OLS结果
estimates store ols
*2SLS回归
qui ivregress 2sls lnw s expr tenure rns smsa (iq = med kww)
*保存2SLS结果
estimates store iv
*豪斯曼检验
hausman iv ols, constant sigmamore
说明:由于豪斯曼检验建立在同方差的前提下,因此没有使用稳健标准误

由上表可知,p=0.0499,即在5%显著性水平上拒绝原假设“所有解释变量均是外生”,即可以认为iq为内生变量~
但是豪斯曼检验有缺点:不适用异方差的情形
因为OLS只有在球形扰动项的情况下才最有效率
此时引入DWH检验,即使在异方差的情况下也适用
*导入数据集
use grilic.dta, clear
*2SLS回归
qui ivregress 2sls lnw s expr tenure rns smsa (iq = med kww)
*DWH检验
estat endogenous

由于F和卡方统计量对应的p值都小于0.05,即在5%的显著性水平上拒绝原假设“所有变量均为外生”,即可以认为iq为内生的解释变量~
关于沃尔德检验原理



引用:人大经济论坛