计量经济学计量经济学Stata计量经济学

1.经济数据缺失值的简单处理(笔记)

2018-12-18  本文已影响15人  LMingP

我的专业方向在写论文的时候用的大都是省级或者地级市的经济数据,一般这些数据都是从年鉴、国民经济社会发展统计公报、各类统计年报或者政府网站上获取,但是总会遇到统计不全导致的数据缺失问题。比如环境污染相关指标、专利申请授权数等,对于这些缺失数据,我的补齐方法一般是以下几种:

一、合并不同来源的数据

二、简单计算

三、取中间值

四、类似样本填补

  1. 找该指标数据类似的其他地级市来对缺失个体进行补齐。
  1. 有时会找经济发展类似的其它地级市的数据进行填充,基于经济发展与专利申请授权数具有正向线性关系的假设(不太严谨)。如果用基于该假设补齐的数据做“经济发展与专利授权数关系”的研究,就是不合理的。

五、函数法

该方法一般适用于:单侧缺失(一般是较早年份缺失,最近年份的数据一般比较齐全)。

  1. 线性函数(excel里trend函数)。


    图2.png
  1. 非线性函数(excel散点图,加入非线性趋势线,根据公式计算缺失数据)。图3-图5以填补专利数据为例。


    图3
图4 图5 图6

六、插值法(Matlab)

有位老师告诉我三次样条插值的方法,计算出来的缺失值较为平滑,结果可能相对合理。去查了一下matlab可以实现,不过只能下次处理数据的时候再实际操作了。

Matlab插值函数为interp1,其调用格式为: yi= interp1(x,y,xi,'method')
其中x,y为插值点,yi为在被插值点xi处的插值结果;x,y为向量, 'method'表示采用的插值方法,MATLAB提供的插值方法有几种: 'method'是最邻近插值, 'linear'线性插值; 'spline'三次样条插值; 'cubic'立方插值。缺省时表示线性插值。
注意:所有的插值方法都要求x是单调的,并且xi不能够超过x的范围。
参考来源:http://blog.sciencenet.cn/blog-457143-679275.html

上一篇下一篇

猜你喜欢

热点阅读