2.6_探索数据和回归_14Jun2019

2019-06-14  本文已影响0人  liang_rujiang

目录:
part 0:介绍
part 1:安装一些常用的包
part 2:基本的技能和数据探索(汇报重点)
part 3:回归操作(汇报重点)
part 4:一些省力的技巧和结果导出
part 5:数据管理和探索常用函数

part 0:介绍

本文是对书籍Econometric Evaluation of Socio-Economic Programs Theory and Applications2.6节汇报的补充内容。

除了汇报时使用的所有代码外,这里还放了常用的函数和运算符,可以帮助您更好地探索数据。

由于本次汇报是操作的汇报,强烈建议大家在自己的电脑上安装stata,组会时带上电脑,跟随我汇报内容自行写作这些代码,而不是直接复制粘贴。

您必需的基础:

part 1:安装一些常用的包

ssc install aaplot, replace
ssc install bihist, replace
ssc install catplot, replace
ssc install sixplot, replace
ssc install logout, replace
ssc install estout, replace
*如果安装过程遇到困难,请使用搜索引擎自行解决

part 2:基本的技能和数据探索(汇报重点)

*******************set up***********************
clear
set more off
cap log close
cd "d:\汇报用ppt_文献提取表_组会安排_交流记录\汇报PPT_汇报材料"

******************* get help *******************
* with search engine
* with help command
help regress
* help dta_examples

*************explore, manage data**************
* get data
sysuse auto, clear

* explore 
list in 1/11

* generate new variable by existing variables
* wrong way
gen temp = 1 if rep78 >= 4
list rep78 temp in 1/ 11
* right way
gen temp2 = 1 if rep78 >= 4 & rep78 != . 
list rep78 temp* in 1/ 15
replace temp2 = 0 if rep78 < 4
list rep78 temp* in 1/ 15
drop temp
ren temp2 binary

describe
su
su price
su price, d
hist price
sixplot(price)
graph box price, by(foreign)
bihist price, by(foreign)

tab1 foreign
count if foreign == 1

tabstat price mpg headroom turn, c(s) stat(mean sd median iqr p25 p75) by(foreign)

tab1 rep78
tab1 rep78, miss
catplot rep78
tab1 rep78 foreign binary
tab1 rep78 foreign binary, miss
tab2 binary rep78
tab2 binary foreign, miss chi expect exact row
tab2 binary rep78, miss
tab2 foreign binary rep78
tab2 foreign binary rep78, first

tw sc length weight
pwcorr length weight, sig
aaplot length weight

part 3:回归操作(汇报重点)

*****************reression*******************
*数据集已发到群里
use states, clear
describe state csat expense percent income high college region
aaplot csat expense
reg csat expense
regress csat expense percent income high college

reg csat percent

predict y_hat
label variable y_hat "predicted mean sat score"

predict e, resid
label variable e "residual"

sixplot e
sort e
su e
list state percent csat y_hat e in 1 / 5
list state percent csat y_hat e in -5 / l

des region
catplot region
label list region
su csat if region == 1
bys region: su csat

oneway csat region
graph box csat, by(region)

reg csat percent i.region

gen region_neast = 1 if region == 2
replace region_neast = 0 if region == 1 | region == 3 | region == 4

gen region_neast2 = region
recode region_neast2 (2 = 1) (1 3 4 = 0)

tab2 region region_neast region_neast2

reg csat percent i.region_neast

graph box percent, by(region_neast)

gen regneast_percent = region_neast * percent
reg csat i.region_neast percent regneast_percent

part 4:一些省力的技巧和结果导出

*****************output*******************
sysuse auto, clear
for var mpg-length: reg price X
use states, clear
global covs income high college

tabstat csat expense percent $covs, c(s) s(mean sd min max) format(%10.3f)
logout, save(des.rtf) word replace : tabstat csat expense percent $covs, c(s) s(mean sd min max) format(%10.3f)

* model 1
reg csat $covs
eststo model1

* model2
reg csat expense $covs
eststo model2

* model 3
regress csat expense percent $covs
eststo model3

esttab model1 model2 model3, /// 
t star(* 0.1 ** 0.05 *** 0.01) stat(r2 F)

esttab model1 model2 model3 using temp.rtf, /// 
t star(* 0.1 ** 0.05 *** 0.01) stat(r2 F) replace

estout model3 using model3.rtf, cells("b(fmt(3)) se(fmt(3)) ci_l(fmt(3)) ci_u(fmt(3)) p(fmt(3))") replace

part 5:数据管理和探索时常用

*************tabatat命令的stat选项可以包括下列统计量*************
mean      平均数
count     非缺失观测值总数
n         计数
max       最大值
min       最小值
range     极差=最大值-最小值
sd        标准差
var       方差
cv        变异系数=标准差/平均值
semean    标准误=标准差/sqrt(n) 
skewness  偏度
kurtosis  峰度
median    中位数(等同于第p50)
p1        第1百分位数(同理,p5、p10、p25、p50、p75、p95或p99)
igr       四分位距=p75-p25


*************************逻辑运算符*****************************
==    等于
!=    不等于(也可以用~=)
>     大于
<     小于
>=    大于等于
<=    小于等于


*************************数学运算符*****************************
+    加
-    减
*    乘
/    除
^    乘方
abs(x)      x的绝对值
ln(x)       x的自然对数
log10(x)    以10为底x的对数
上一篇下一篇

猜你喜欢

热点阅读