动态面板数据估计方法之xtpmg命令

2021-01-16 本文已影响0人夭夭如也_3y

摘要

本文引入了一个新的Stata命令xtpmg，用于估计包含大N大T的非平稳非平衡面板。基于非平稳面板文献的最新进展，xtpmg提供了三种替代估计量：1）传统的固定效应（FE）、2）Pesaran和Smith的平均组估计量MG（估计动态异质面板的长期关系）；3）Pesaran、Shin和Smith的混合平均组估计PMG（估计动态异质面板中的长期关系）。

一、引言

近年来，与动态面板数据相关的文献开始关注截面观测数（N）和时间序列观测数（T）都较大的面板。海量数据的可获得性无疑是导致这种转变的关键因素。例如，一些跨国家或省份的数据集现在已经足够大，以至于可以分别估计每个国家（或省份）的参数。

大N大T动态面板的渐近性不同于传统的大N小T动态面板的渐近性。小T面板估计通常依赖于固定效应或随机效应估计，或固定效应估计和工具变量估计的组合，如Arellano和Bond（1991）的广义矩估计方法（GMM）。这些方法需要汇集（pool）各个组，并且只允许截距项在组间不同。然而，大N大T文献的一个中心发现是，斜率参数均匀性的假设通常是不合适的。Pesaran和Smith（1995年）、Im、Pesaran和Shin（2003年）、Pesaran、Shin和Smith（1997年、1999年）以及Phillips和Moon（2000年）提出了这一点。

随着大N大T动态面板固有的时间观测值的增加，非平稳性也受到关注。Pesaran，Shin和Smith（1997，1999）最近的论文提出了两种重要的新方法来估计非平稳动态面板：平均组（MG）和混合平均组（PMG）估计，其允许参数在不同组之间不同。MG估计值（参见Pesaran和Smith 1995）依赖于估计N个时间序列回归并平均系数，而PMG估计（参见Pesaran、Shin和Smith 1997、1999）依赖于系数的合并（pool）和平均。

在最近的实证研究中，MG和PMG估计量被应用于各种情形。例如，Freeman（2000）使用这些方法来评估1961-1995年间各州的酒精消费量。Martinez-Zarzoso和Bengochea-Morancho（2004）在1975-1998年间对22个经合组织成员国的环境库兹涅茨曲线进行了估算。Frank（2005）使用MG和PMG估计值来评估1945-2001年间美国各州收入不平等对经济增长的长期影响。

二、MG和PMG的估计原理

假设自回归分布滞后（ARDL）( $p, q_{1} , ..., q_{k}$ )的动态面板模型具有如下形式：

公式（1）：基于ARDL的动态面板模型

其中横截面标记（组数）为i=1,2，…，N；时间序列标记（周期数）为t=1,2，…，T； $X_{it}$ 是解释变量，为k×1向量； $\delta _{it}$ 是k×1系数向量； $\lambda _{ij}$ 是标量； $\mu _{i}$ 是组特定效应。T必须足够大，以便模型可以分别估计每个组。模型也可以包括时间趋势和其他固定效应。

如果公式（1）中的变量是I(1)和协整的，那么误差项是所有 $i$ 的I(0)过程。协整变量的一个主要特征是它们对长期均衡的任何偏离的响应。这一特征意味着在误差修正模型中，变量的短期动态变化受其偏离平衡的影响。因此，通常将公式（1）再次参数化为误差校正（Error Correction, EC）方程：

公式（2）：误差修正模型

参数 $\phi _{i}$ 是调整项的误差修正速度。如果 $\phi _{i}$ =0，则没有证据表明变量间存在长期关系。假设变量显示回归长期均衡的情况下，该参数预计将显著为负。特别重要的是向量 $\theta _{i}^\ast$ ，它包含变量之间的长期关系。

最近关于大N和大T的动态非平衡面板估计的文献提出了估计公式（2）的几种方法。在一种极端情况下，可以使用固定效应（FE）估计方法，其中每个组的时间序列数据被汇集（pool）在一起，并且只允许截距在组间不同。然而，如果斜率系数事实上不相同，那么FE方法会产生不一致且可能误导的结果。另一个极端情况下，Pesaran和Smith（1995）提出的MG估计可以分别为每组拟合，并可以计算出系数的简单算术平均值。使用这种估计方法，截距、斜率系数和误差方差都允许组间不同。

最近，Pesaran、Shin和Smith（1997、1999）提出了一个PMG估计法，它结合了合并和平均（pooling and averaging）。这种中间估计方法允许截距、短期系数和误差方差在组间不同（与MG估计法一样），但限制长期系数在组间相等（与FE估计法一样）。由于公式（2）的参数是非线性的，Pesaran、Shin和Smith（1999）提出了一种估计参数的极大似然法（Maximum likelihood method）。

将概率（likelihood）表示为每个横截面的概率（likelihood）的乘积并取对数，得到如下表达式：

公式（3）：极大似然估计

xtpmg使用Stata强大的ML框架来实现PMG估计。具体来说，我们利用ml的hold选项，通过“反向替换”来最大化概率（likelihood）。从长期系数向量 $\hat{\theta }$ 的初始估计开始，可通过 $\Delta y_{i}$ 对（ $\hat{\xi _{i} }$ , $W_{i}$ ）的回归来估计短期系数和群组层面（group -specific）的调整项的速度。这些条件估计又被用来更新θ的估计。迭代过程一直持续直到收敛。

迭代条件似然最大化的参数估计与完全信息极大似然的参数估计是渐近一致的。但是，它们估计的协方差矩阵不同。然而，由于PMG参数的分布是已知的，我们可以获得所有估计参数的完全协方差矩阵。如Pesaran、Shin和Smith（1999）所示，协方差矩阵可以通过如下的逆矩阵求得：

极大似然估计的协方差矩阵

MG参数只是单个系数的未加权平均值。例如，误差校正系数 $\phi$ 的MG估计为

公式（4）：MG估计的误差修正系数

其方差为

公式（4）：MG估计的误差修正系数的方差

其他短期系数的均值和方差也作了类似的估计。

三、xtpmg命令在stata中的使用

（一）基本句式

xtpmg在stata种的基本语句

（二）详细说明

lr（varlist）——指定在计算长期协整向量时要包含的变量。

ec（string）——用于指定新创建的误差更正的名称；默认值为_ _ec。

replace——覆盖错误更正变量（如果存在）。

constraints(string)——指定要应用于模型的约束。此选项当前仅支持选项pmg一起使用。

noconstant——不包含常数项。此选项不能与选项dfe一起使用。

cluster（varname）——指定观察值在组间是独立的，但不一定在组内。varname指定每个观察所属的组，例如，对个体进行重复观察的数据中的cluster（personid）。cluster（）影响估计量的估计标准误差和方差-协方差矩阵（VCE），但不影响估计系数。

level(#)——设置置信水平，默认是level(95)

technique(algorithm_spec)——指定ml最大化方法。algorithm_spec是algorithm[#[algorithm[#]...]。algorithm可以是[nr|bfgs|dfp]。bhhh算法与xtpmg不兼容。technology（）只能与选项pmg一起使用。

difficult——将使用不同的步进算法在非凹区域的概率（likelihood）。

full——指定列出所有N个横截面回归结果。默认情况下，仅列出平均系数。

model——是要拟合的估计方法，是以下类型之一：

pmg是默认值，并指定pmg估计。该模型限制长期系数向量在面板之间相等，同时允许组特定的短期和调整系数。

mg指定mg估计。该模型将参数拟合为N个个体组回归的平均值。

dfe指定了动态固定效应估计。

四、实证操作

（一）模型设定

我们用24个OECD国家的年度总消费数据来说明xtpmg的使用。这些数据来自Pesaran、Shin和Smith（1997、1999），涵盖了1960-1993年。比利时1993年的年度观测数据不包括在估算样本中，比利时的估算期为1962-1992年，其他23个经合组织国家的估算期为1962-1993年。xtpmg要求在估计之前tsset设置数据。

实例：导入数据并设置数据结构

假设长期消费函数为

实例：模型设定——长期消费函数

其中，国家数i=1,2，…，N；周期数t=1,2，…，t；c是实际人均消费的对数；y是实际人均收入的对数；π是通货膨胀率。如果变量是I（1）和协整的，那么所有i的误差项都是I（0）过程。

公式（6）的ARDL（1,1,1）动态面板模型为

实例：基于公式（6）的动态模型

公式（7）的误差更正的再参数化公式是：

实例：公式（7）种的误差修正系数

平差参数 $\phi _{i}$ 和长期系数θ1i和θ2i的误差修正速度是最重要的。如果包含θ0i，则允许协整关系的非零均值。如果变量回归到长期均衡，人们会认为 $\phi _{i}$ 为负。大多数总消费理论认为，长期收入弹性θ1i应等于1。通货膨胀效应θ2i通常被认为是负的。

（二）PMG估计

首先，文章估计模型（8）的PMG估计量。在这种背景下，PMG模型考虑了异质的短期动态以及共同的长期收入和通货膨胀弹性。通常只有长期参数才有意义。pmg选项的默认结果包括长期参数估计和平均短期参数估计。

实例：pmg估计结果

在结果中，估计的长期通胀弹性与预期一样显著为负。另外，估计的收入弹性也显著为正。理论上，收入弹性等于1。这个假设很容易验证：

相应的χ2值为121.2，可以拒绝单位收入弹性的原假设。

full选项估计并保存一个N+1多方程模型。第一个方程（按选项ec标注）表示标准化协整向量。剩下的N个方程列出了组特定的短期系数。

实例：加入full选项的pmg估计

由于每组都有自己的估计方程，我们可以直观地预测变量。

实例：根据组标识进行预测

类似地，交叉方程限制也很容易得到。

实例：检验

（三）MG估计

MG估计值是N个单独回归系数的未加权平均值。带有mg选项的xtpmg循环遍历样本中的所有面板，以估计（8）的参数

实例：mg估计

MG估计是一个两方程模型：标准化协整向量(EC)和短期动态系数（SR）。在比较PMG和MG估计量时，我们注意到，估计的长期收入和通货膨胀弹性在两个模型中都具有统计显著性和预期相同的符号。然而，PMG对通货膨胀弹性的估计在数量级上大于MG模型的估计（分别为-47和-35）。估计的长期收入弹性（分别为.90和.92）则正好相反。每个模型的调整估计速度意味着短期动态显著不同。

回想一下，PMG估计将所有面板的长期弹性限制为相等。当这些约束条件是真的时，这种跨国家的“加总”（pooling）产生了有效和一致的估计。然而，通常情况下，斜率相同的假设在经验上被否定。如果真实模型是异质的，则PMG估计是不一致的；MG估计在任何一种情况下都是一致的。这些模型的差异性检验是用常见的Hausman检验进行的。

实例：hausman检验mg估计和pmg估计

计算的Hausman统计量为1.06，服从χ2（2）分布，应接受原假设。在这里我们得出结论，在原假设下（PMG和MG估计差异非系统性的），PMG估计是首选的有效估计。

（四）动态固定效应

动态FE估计与PMG估计一样，限制所有面板的协整向量系数相等。FE模型进一步限制了调整系数和短期系数的速度相等。带有dfe选项的xtpmg适合模型（8），同时允许面板层面的截距项。在计算标准误差时，允许使用cluster（）选项进行组内相关性计算。

实例：动态FE估计

动态FE模型的所有系数都产生了预期的符号，事实上，它们与PMG和MG估计值相似。正如Baltagi、Griffin和Xiong（2000）所讨论的，FE模型受到误差项和滞后因变量之间内生性的联立方程偏差的影响。豪斯曼检验（ Hausman test）可以很容易地用来衡量这种内生性的程度。

实例：hausman检验mg和DFE的区别

结果表明，在该样本数据下，联立方程偏差是最小的。在这个例子中，我们得出结论，FE模型优于MG模型。

五、结论

本文介绍了Pesaran和Smith（1995）以及Pesaran，Shin和Smith（1997；1999）在估算具有大N大T的非平稳非平衡面板方面的最新进展。我们提供了一个新的Stata命令xtpmg，该命令估计了三种可供选择的模型：一个依赖于横截面合并(pooling)的传统动态FE估算，依赖于横截面平均值的MG估计和依赖于系数合并(pooling)和平均的PMG估计。

参考文献

Blackburne III, E. F., & Frank, M. W. (2007). Estimation of nonstationary heterogeneous panels. The Stata Journal, 7(2), 197-208. 点击链接可在线阅读原文<https://maiimg.com/pdf/?e=agFqt4MbrUBcwm>

Arellano, M., and S. Bond. 1991. Some tests of specification for panel data: Monte Carlo evidence and an application to employment equations. Review of Economic Studies 58: 277–297.

Baltagi, B. H. 2001. Econometric Analysis of Panel Data. 2nd ed. New York: Wiley.

Baltagi, B. H., J. M. Griffin, and W. Xiong. 2000. To pool or not to pool: Homogeneous versus heterogeneous estimators applied to cigarette demand. Review of Economics and Statistics 82: 117–126.

Baum, C. F., M. E. Schaffer, and S. Stillman. 2003. Instrumental variables and GMM: Estimation and testing. Stata Journal 3: 1–31.

Frank, M. W. 2005. Income inequality and economic growth in the U.S.: A panel cointegration approach. Sam Houston State University Working Paper 05-03.

Freeman, D. G. 2000. Alternative panel estimates of alcohol demand, taxation, and the business cycle. Southern Economic Journal 67: 325–344.

Im, K. S., M. H. Pesaran, and Y. Shin. 2003. Testing for unit roots in heterogeneous panels. Journal of Econometrics 115: 53–74.

Martinez-Zarzoso, I., and A. Bengochea-Morancho. 2004. Pooled mean group estimation of an environmental kuznets curve for CO 2 . Economics Letters 82: 121–126.

Pesaran, M. H., Y. Shin, and R. P. Smith. 1997. Estimating long-run relationships in dynamic heterogeneous panels. DAE Working Papers Amalgamated Series 9721.

———. 1999. Pooled mean group estimation of dynamic heterogeneous panels. Journal of the American Statistical Association 94: 621–634.

Pesaran, M. H., and R. P. Smith. 1995. Estimating long-run relationships from dynamic heterogeneous panels. Journal of Econometrics 68: 79–113.

Phillips, P. C. B., and H. R. Moon. 2000. Nonstationary panel data analysis: An overview of some recent developments. Econometric Reviews 19: 263–286.