内生性处理:广义矩估计
本专栏旨在分享日常学习计量时整理的笔记。所记之物来自网络、书籍,自己仅有整理汇集之功,涉及资料在文末标注,版权归原作者所有。
一、什么是内生性?
内生性问题是解释变量与扰动项相关导致的,具体的表现形式有遗漏变量、双向因果和测量误差。
- 遗漏变量
遗漏变量是指可能与解释变量相关的变量,本来应该加以控制,但是没有控制。此时该变量会跑到扰动项中,造成扰动项与解释变量相关。 - 双向因果
双向因果是指核心解释变量A和被解释变量B互相影响。假设扰动项发生正向冲击,B会增加,则A发生变动,如此就有核心解释变量A和扰动项相关。此时,如果B对A有正向影响,正向冲击便会导致A增加,从而导致核心解释变量A和扰动项正相关。反之,会有核心解释变量A和扰动项负相关。 - 测量误差
测量误差是指被解释变量存在度量误差或解释变量存在度量误差。
(1)当解释变量存在度量误差
y=α+βx'+e,x'无法精确观测,只能观测到x,x=x'+u,u为度量误差
此时有:y=α+βx+(e-βu)
因为u和x相关,所以新的扰动项e-βu和x存在相关关系,产生了内生性。此时,估计得到的系数绝对值会偏小。
(2)当被解释变量存在度量误差
y'=α+βx+e,y'无法精确观测,只能观测到y,y=y'+v,v为度量误差
此时有:y=α+βx+(e+v)
只要Cov(x,v)=0,则OLS估计量仍是一致的,但会增大扰动项的方差;若Cov(x,v)≠0,就会产生内生性问题
有:y=α+βx+(e-βu)。
二、内生性问题的影响
OLS能够成立的最重要前提条件是解释变量与扰动项不相关。否则,OLS估计量将是有偏且不一致的。
无偏是指估计量的期望等于真实值。一致性是指,随着样本的增大,估计量无限接近于真实值。
三、广义矩估计
广义矩估计方法(GMM)常用来解决因使用动态面板数据而产生的内生性问题。
1.动态面板
动态面板数据模型的典型特征是解释变量中包含被解释变量的滞后项。其意义在于,有些经济理论认为个体的当前行为取决于过去行为,比如企业投资决策。
image.png此时,即使使用固定效应模型估计,即采用组内离差或一阶差分去除个体效应αi,仍无法解决动态面板模型的内生性问题。
image.png通过上述分析可知,问题的关键在于yi,t-1作为解释变量而产生的内生性问题,为此可以考虑找工具变量来解决。
2.估计方法
2.1发展历史
Anderson & Hisao(1982)提出如果扰动项不存在序列相关,则可通过先去除个体效应,然后使用yi,t-2作为工具变量。但yi,t-2不是唯一的工具变量,yi,t-3 yi,t-4等可以作为工具变量。Arellano & Bond(1991)认为Anderson & Hisao的方法虽然是一致的,但不是有效的,因为没有充分运用样本信息。在Anderson & Hisao方法基础上,他们提出了使用更多工具变量的广义矩估计方法。
2.2广义矩估计
(1)广义、一般化
OLS、IV、2SLS、MLE都是GMM的特殊形式。
(2)矩
矩是随机变量的一个特征。
(3)矩估计
补充:关于2SLS和GMM
2SLS和GMM背后都是工具变量,两者的区别在于权重分配的依据不同。
- 2SLS利用的是工具变量z和解释变量x的相关性,以此确定权重(相关性越大,权重越高)
- GMM利用的是工具变量z和扰动项e的相关性,以此确定权重(相关性越大,权重越高)
2.3广义矩估计分类
广义矩估计方法有两种:
(1)差分GMM
对基本模型进行一阶差分去掉固定效应的影响,然后用一组滞后的解释变量作为相应变量的工具变量(Arellano & Bond,1991)。
(2) 系统GMM
Arellano & Bond(1998)认为差分GMM估计量容易受弱工具变量的影响,进一步提出了系统GMM方法。
系统GMM前提假定:工具变量的一阶差分与固定效应项不相关,但目前并没有方法对该前提进行检验。
使用系统GMM需要满足:
- 大N小T
- 线性函数关系
- 方程左边的变量作为动态变量
- 不是所有的解释变量都是严格外生的
- 控制了个体固定效应
- 默认不存在截面相关问题。且建议使用双向固定效应
ssc install xtabond2
xtabond2 depvar varlist [if exp] [in range] [weight] [, level(#) svmat svvar twostep robust cluster(varlist) noconstant small noleveleq orthogonal gmmopt [gmmopt ...] ivopt [ivopt ...] pca components(#) artests(#) arlevels h(#) nodiffsargan nomata]
*差分GMM
xtabond2 depvar varlist, gmmstyle(varlist) ivstyle(varlist) twostep nolevel robust
// gmm(varlist) GMM式工具变量
// iv(varlist) IV式工具变量
// twostep 使用GMM
// nolevel 差分GMM
// robust 稳健标准误
*系统GMM
xtabond2 depvar varlist, gmm(varlist) iv(varlist) twostep robust
// gmm(varlist) GMM式工具变量
// iv(varlist) IV式工具变量
// twostep 使用GMM
// robust 稳健标准误
*小样本:使用small
关于gmmopt
gmm(前定变量)
gmmstyle() : specifies a set of variables to be used as bases for "GMM-style" instrument sets described in Holtz-Eakin, Newey, and Rosen (1988) and Arellano and Bond (1991).
By default xtabond2 uses, for each time period, all available lags of the specified variables in levels dated t-1 or earlier as instruments for the transformed equation; and uses the contemporaneous first differences as instruments in the levels equation. These
defaults are appropriate for predetermined variables that are not strictly exogenous (Bond 2000).
gmmstyle(varlist [, laglimits(# #) collapse orthogonal equation({diff | level | both}) passthru split])
- laglimits(# #):限定滞后期数,如laglimits(2 5)表示工具变量滞后2-5期,gmm(L.w)和gmm(w,lag(2.))是等价的。
- 压缩工具变量数:collapse
关于ivopt
iv(外生变量)
ivstyle() : specifies a set of variables to serve as standard instruments, with one column in the instrument matrix per variable. Normally, strictly exogenous regressors are included in ivstyle options.
ivstyle(varlist [, equation({diff | level | both}) passthru mz])
如果xit是内生变量,那么滞后一期xit-1是前定变量、滞后两期xit-2是外生变量。
进入模型的变量被分为两类:
- 内生变量
其由模型内部决定,被视为随机的。 - 前定变量
其由模型外部决定的,被视为非随机的。 前定变量又可以分为:当前的外生变量、滞后的外生变量,滞后的内生变量。
关于orthogonal
orthogonal 向前正交变换
当数据是非平衡面板时,使用一阶差分会损失数据,建议采用向前正交变换。
xtabond2 depvar varlist, gmm(varlist) iv(varlist) twostep robust orthogonal //系统GMM 稳健标准误 向前正交变换
2.4相关检验
所用的模型越复杂,检验成本就越高。
(1)序列相关检验
通过Arellano-Bond的自相关检验对差分方程随机扰动项的二阶序列相关进行检验,原假设是一阶差分方程的随机扰动项不存在二阶序列相关。
在自相关检验中,应同时满足AR(1)的p值<0.1,AR(2)的p值>0.1。
(2)过度识别检验
通过Hansen过度识别检验对所使用的工具变量有效性进行检验,原假设是使用的工具变量与扰动项不相关。
- Sargen检验:对异方差敏感,但工具变量较多时仍没有问题。
- Hansen检验:异方差稳健,但工具变量较多时检验力下降。
3.常见问题及建议
(1)工具变量过多有什么影响?
过多的工具变量会使得估计结果失去效率。Roodman(2006)指出太多的工具变量数可能过度拟合内生变量而不能去掉内生部分。此外,过多的工具变量还可能弱化Hansen过度识别约束检验。xtabond2命令可以通过限定滞后期数来控制工具变量的个数。
(2)如何判断GMM估计结果是否有效?
Bond et al.(2002)认为如果GMM估计值介于固定效应估计值和混合OLS估计值之间,则GMM估计是可靠有效的。
(3)什么是拇指规则?
拇指规则是指工具变量数尽可能不超过截面数。
(4)Hansen检验的p值等于1
太多的工具变量会使得Hansen检验的p值等于1,所以在Hansen检验接近1时,要采用lag()选项和collapse选项将工具变量压缩,使得p小于1,而不是很接近于1
(5)截面相关问题
时间虚拟变量的引入可以使得误差项的截面相关变得不相关,所以在模型设定中尽可能地引入时间虚拟变量。
(6)需要报告什么
AR(2)、Sargen统计量
(7)序列相关检验和Sargen检验通不过
首先确保加了twostep,一步估计下Sargen统计量没有考虑异方差,存在过度拒绝问题。
参考资料:
动态面板模型
《高级计量经济学及stata应用》
《计量分析与stata应用》
面板数据分析与Stata应用
从零理解广义矩估计(GMM)
如何用简单的例子解释什么是 Generalized Method of Moments (GMM)?
stata面板数据回归操作之GMM