stata学习日记（7）

2019-02-25 本文已影响0人小木山庄的溜溜

学习材料来源：《应用stata做统计分析》劳伦斯·汉密尔顿

一、数据管理

感觉把原始数据处理成能够用来做回归的数据集是最难也最重要的一步了，之后只要按部就班回归就行。

（七）标注变量下标

当stata有数据在内存中时，它也定义了描述这些数据的系统变量。比如，_N表示观测案例总数。_n表示观测案例号：_n=1表示第一条观测案例，_n=2表示第二条观测案例，直到最后一条观测案例（_n=_N）。

generate caseID=_n 创建一个新变量caseID，其值等于前面已经排序过的每一条观测案例的序号。

如果按照其他方式对数据排序就会改变每一观测案例的_n值，但是其caseID的取值将保持不变。因此，我们再键入下述命令就能恢复原来的顺序：

sort caseID

创建并保存数据集形成初期观测案例的唯一性顺序识别码能够便利以后的数据管理。

我们能够对变量名添加下标来指定独特的观测案例的号码。比如数据集canadal.dta中的第6条观测案例是Quebec，因此，pop[6]就是Quebec的人数。

当数据构成一个序列时，加注下标和_n系统变量有另外的好处。比如，如果我们以某只股票每天的股价作为名为price的变量，那么price或者等价的price[_n]表示第n次观测或第n天的价格，price[_n-1]表示前一天的价格，price[_n+1]表示后一天的价格。因此可以定义新的变量difprice为自前一天来的价格变化：

generate difprice = price-price[_n-1]

stata学习日记（7）

猜你喜欢

热点阅读