计量经济学

大数据系列-01线性回归的矩阵表达

2019-06-09  本文已影响5人  pkuzzq

想法疯狂不?
想试试看
看到哪、 想到哪、 写到哪


什么是大数据?

大数据的一种表现形式为“高维数据”(high dimensional data), 即变量个数(k)大于样本容量(n), 也称为“data-rich environment”。

Raj Chetty 在Harvard 的经济学课堂 Using Big Data to Solve Economic and Social Problems (econ1152)上, 提到了大数据的两种基本类型:

第一种是传统的低维数据, 常见于宏观的经济变量、 或者时间序列的数据。

第二种则是高维数据。 比如: 提取了10个的DNA, 则不同的基因序列组合就成为高维的变量; 再比如比如, 人口普查、 工业调查或家庭调查数据, 每个个体样本包含了很多个变量; 又如交易层面的数据(包括网购与零售扫描数据)、 社交媒体的数据、 以及文本挖掘的数据, 其变量个数则一般成千上万, 甚至更多。

陈强[1]指出, 第二种高维数据还存在于传统的计量经济学情形中, 如原始变量不多, 但我们通常不知道这些变量应该以怎样的函数形式(functional form)进入回归方程, 为了解决潜在非线性, 可能加入原始变量的平方项、 交互项、 甚至更高次项, 以及其他变换(比如取对数), 使得最终变量个数大大增加, 这种情形是大家比较熟悉的传统计量经济学问题。

解释变量的现实与矩阵表示

若样本在stata或excel中表现为如下:

stata中的样本数据集与变量的对应

上图可以用矩阵表达。

首先第1个样本\boldsymbol{obs}_{1}的列向量表达式为:

\boldsymbol{obs}_{1} \equiv\left(\begin{array}{c}{obs_{1 1}} \\ {obs_{1 2}} \\ {\vdots} \\ {obs_{1 K}}\end{array}\right)
将其转换为行向量的转置形式, 与上图的第1行对应:
\boldsymbol{obs}_{1}^{\prime} \equiv\left(obs_{1 1} obs_{1 2} \cdots obs_{1 K}\right)

所有的解释变量可以表现为如下矩阵形式, 就能够与上图对应起来

\mathbf{X}\equiv \left( \begin{matrix} \mathbf{obs}_{1}^{\prime } \\ \mathbf{obs}_{2}^{\prime } \\ \vdots \\ \mathbf{obs}_{n}^{\prime } \\ \end{matrix} \right)=\left( \begin{matrix} ob{{s}_{11}} & ob{{s}_{12}} & \cdots & ob{{s}_{1K}} \\ ob{{s}_{21}} & ob{{s}_{22}} & \cdots & ob{{s}_{2K}} \\ \cdots & \cdots & \cdots & \cdots \\ \underbrace{ob{{s}_{n1}}}_{{{X}_{1}}} & \underbrace{ob{{s}_{n2}}}_{{{X}_{2}}} & \cdots & \underbrace{ob{{s}_{nK}}}_{{{X}_{k}}} \\ \end{matrix} \right)

\boldsymbol{X} 的行为个体观测值(observation), 有n个; \boldsymbol{X} 列为变量(variable), 有k个。

古典线性模型的矩阵表达

首先, 第i个被解释变量{y}_{i}的线性表达式如下:
y_{i}=\beta_{1} obs_{i 1}+\beta_{2} obs_{i 2}+\cdots+\beta_{K} obs_{i K}+\varepsilon_{i} \quad(i=1, \cdots, n)

其中\boldsymbol{obs}_{i} \equiv\left(\begin{array}{c}{obs_{i 1}} \\ {obs_{i 2}} \\ {\vdots} \\ {obs_{i K}}\end{array}\right)

参照之前列向量转置的方法, 得到:
\boldsymbol{obs}_{i}^{\prime} \equiv\left(obs_{i 1} obs_{i 2} \cdots obs_{i K}\right)
所以有:
y_{i}=\beta_{1} obs_{i 1}+\beta_{2} obs_{i 2}+\cdots+\beta_{K} obs_{i K}+\varepsilon_{i}= \left(obs_{i 1} obs_{i 2} \cdots obs_{i K}\right)\left(\begin{array}{c}{\beta_{1}} \\ {\beta_{2}} \\ {\vdots} \\ {\beta_{K}}\end{array}\right) =\boldsymbol{obs}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}
其中
\boldsymbol{\beta}\equiv\left(\begin{array}{c}{\beta_{1}} \\ {\beta_{2}} \\ {\vdots} \\ {\beta_{K}}\end{array}\right)

将上式叠放后:
\left(\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{n}}\end{array}\right)=\left(\begin{array}{c}{obs_{1}^{\prime}} \\ {obs_{2}^{\prime}} \\ {\vdots} \\ {obs_{n}^{\prime}}\end{array}\right) \boldsymbol\beta+\left(\begin{array}{c}{\varepsilon_{1}} \\ {\varepsilon_{2}} \\ {\vdots} \\ {\varepsilon_{n}}\end{array}\right)

结合上节的\mathbf{X}表达式,最终得到古典线模型的矩阵表达式:
\boldsymbol{y}=\mathbf{X}\boldsymbol{\beta}+\varepsilon



  1. 参见《高级计量经济学及Stata应用之大数据与高维回归》,2019年5月25日

上一篇下一篇

猜你喜欢

热点阅读