大数据系列-01线性回归的矩阵表达
想法疯狂不?
想试试看
看到哪、 想到哪、 写到哪
什么是大数据?
大数据的一种表现形式为“高维数据”(high dimensional data), 即变量个数(k)大于样本容量(n), 也称为“data-rich environment”。
Raj Chetty 在Harvard 的经济学课堂 Using Big Data to Solve Economic and Social Problems (econ1152)上, 提到了大数据的两种基本类型:
- 一种是“长”数据: 相对变量k而言, 很多个样本n, 即n>>k
- 一种是“宽”数据: 相对样本n而言, 很多个变量k, 即k>>n
第一种是传统的低维数据, 常见于宏观的经济变量、 或者时间序列的数据。
第二种则是高维数据。 比如: 提取了10个的DNA, 则不同的基因序列组合就成为高维的变量; 再比如比如, 人口普查、 工业调查或家庭调查数据, 每个个体样本包含了很多个变量; 又如交易层面的数据(包括网购与零售扫描数据)、 社交媒体的数据、 以及文本挖掘的数据, 其变量个数则一般成千上万, 甚至更多。
陈强[1]指出, 第二种高维数据还存在于传统的计量经济学情形中, 如原始变量不多, 但我们通常不知道这些变量应该以怎样的函数形式(functional form)进入回归方程, 为了解决潜在非线性, 可能加入原始变量的平方项、 交互项、 甚至更高次项, 以及其他变换(比如取对数), 使得最终变量个数大大增加, 这种情形是大家比较熟悉的传统计量经济学问题。
解释变量的现实与矩阵表示
若样本在stata或excel中表现为如下:
stata中的样本数据集与变量的对应上图可以用矩阵表达。
首先第1个样本的列向量表达式为:
将其转换为行向量的转置形式, 与上图的第1行对应:
所有的解释变量可以表现为如下矩阵形式, 就能够与上图对应起来
的行为个体观测值(observation), 有n个; 列为变量(variable), 有k个。
古典线性模型的矩阵表达
首先, 第i个被解释变量的线性表达式如下:
其中
参照之前列向量转置的方法, 得到:
所以有:
其中
将上式叠放后:
结合上节的表达式,最终得到古典线模型的矩阵表达式:
-
参见《高级计量经济学及Stata应用之大数据与高维回归》,2019年5月25日 ↩