大数据系列-01线性回归的矩阵表达

2019-06-09 本文已影响5人 pkuzzq

想法疯狂不？
想试试看
看到哪、想到哪、写到哪

什么是大数据？
解释变量的现实与矩阵表示
古典线性模型的矩阵表达

什么是大数据？

大数据的一种表现形式为“高维数据”（high dimensional data），即变量个数（k）大于样本容量（n），也称为“data-rich environment”。

Raj Chetty 在Harvard 的经济学课堂 Using Big Data to Solve Economic and Social Problems （econ1152）上，提到了大数据的两种基本类型：

一种是“长”数据：相对变量k而言，很多个样本n, 即n>>k
一种是“宽”数据：相对样本n而言，很多个变量k, 即k>>n

第一种是传统的低维数据，常见于宏观的经济变量、或者时间序列的数据。

第二种则是高维数据。比如：提取了10个的DNA，则不同的基因序列组合就成为高维的变量；再比如比如，人口普查、工业调查或家庭调查数据，每个个体样本包含了很多个变量；又如交易层面的数据（包括网购与零售扫描数据）、社交媒体的数据、以及文本挖掘的数据，其变量个数则一般成千上万，甚至更多。

陈强^[1]指出，第二种高维数据还存在于传统的计量经济学情形中，如原始变量不多，但我们通常不知道这些变量应该以怎样的函数形式(functional form)进入回归方程，为了解决潜在非线性，可能加入原始变量的平方项、交互项、甚至更高次项，以及其他变换（比如取对数），使得最终变量个数大大增加，这种情形是大家比较熟悉的传统计量经济学问题。

解释变量的现实与矩阵表示

若样本在stata或excel中表现为如下：

stata中的样本数据集与变量的对应

上图可以用矩阵表达。

首先第1个样本 $\boldsymbol{obs}_{1}$ 的列向量表达式为：

$\boldsymbol{obs}_{1} \equiv\left(\begin{array}{c}{obs_{1 1}} \\ {obs_{1 2}} \\ {\vdots} \\ {obs_{1 K}}\end{array}\right)$
将其转换为行向量的转置形式，与上图的第1行对应：
$\boldsymbol{obs}_{1}^{\prime} \equiv\left(obs_{1 1} obs_{1 2} \cdots obs_{1 K}\right)$

所有的解释变量可以表现为如下矩阵形式，就能够与上图对应起来

$\mathbf{X}\equiv \left( \begin{matrix} \mathbf{obs}_{1}^{\prime } \\ \mathbf{obs}_{2}^{\prime } \\ \vdots \\ \mathbf{obs}_{n}^{\prime } \\ \end{matrix} \right)=\left( \begin{matrix} ob{{s}_{11}} & ob{{s}_{12}} & \cdots & ob{{s}_{1K}} \\ ob{{s}_{21}} & ob{{s}_{22}} & \cdots & ob{{s}_{2K}} \\ \cdots & \cdots & \cdots & \cdots \\ \underbrace{ob{{s}_{n1}}}_{{{X}_{1}}} & \underbrace{ob{{s}_{n2}}}_{{{X}_{2}}} & \cdots & \underbrace{ob{{s}_{nK}}}_{{{X}_{k}}} \\ \end{matrix} \right)$

$\boldsymbol{X}$ 的行为个体观测值(observation)，有n个； $\boldsymbol{X}$ 列为变量(variable)，有k个。

古典线性模型的矩阵表达

首先，第i个被解释变量 ${y}_{i}$ 的线性表达式如下：
$y_{i}=\beta_{1} obs_{i 1}+\beta_{2} obs_{i 2}+\cdots+\beta_{K} obs_{i K}+\varepsilon_{i} \quad(i=1, \cdots, n)$

其中 $\boldsymbol{obs}_{i} \equiv\left(\begin{array}{c}{obs_{i 1}} \\ {obs_{i 2}} \\ {\vdots} \\ {obs_{i K}}\end{array}\right)$

参照之前列向量转置的方法，得到：
$\boldsymbol{obs}_{i}^{\prime} \equiv\left(obs_{i 1} obs_{i 2} \cdots obs_{i K}\right)$
所以有：
$y_{i}=\beta_{1} obs_{i 1}+\beta_{2} obs_{i 2}+\cdots+\beta_{K} obs_{i K}+\varepsilon_{i}= \left(obs_{i 1} obs_{i 2} \cdots obs_{i K}\right)\left(\begin{array}{c}{\beta_{1}} \\ {\beta_{2}} \\ {\vdots} \\ {\beta_{K}}\end{array}\right) =\boldsymbol{obs}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}$
其中
$\boldsymbol{\beta}\equiv\left(\begin{array}{c}{\beta_{1}} \\ {\beta_{2}} \\ {\vdots} \\ {\beta_{K}}\end{array}\right)$

将上式叠放后：
$\left(\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{n}}\end{array}\right)=\left(\begin{array}{c}{obs_{1}^{\prime}} \\ {obs_{2}^{\prime}} \\ {\vdots} \\ {obs_{n}^{\prime}}\end{array}\right) \boldsymbol\beta+\left(\begin{array}{c}{\varepsilon_{1}} \\ {\varepsilon_{2}} \\ {\vdots} \\ {\varepsilon_{n}}\end{array}\right)$

结合上节的 $\mathbf{X}$ 表达式，最终得到古典线模型的矩阵表达式：
$\boldsymbol{y}=\mathbf{X}\boldsymbol{\beta}+\varepsilon$

参见《高级计量经济学及Stata应用之大数据与高维回归》,2019年5月25日 ↩

大数据系列-01线性回归的矩阵表达

什么是大数据？

解释变量的现实与矩阵表示

古典线性模型的矩阵表达

猜你喜欢

热点阅读