定量数据分析笔记

2016-04-14 本文已影响761人古洞洞

用stata算集中指数采用Stata系统自带数据库auto.dta。

一、集中趋势的统计描述
　　以变量price为例进行说明。
　　均数：采用mean price计算得6165.257。
　　算术均数、几何均数和调和均数可以采用means、ameans、gmeans、hmeans计算。
　　众数：没有对应的命令可以直接计算众数，但是可以通过几种策略进行变通计算。如通过egen x=mode(price); disp x; drop x，不过本例中price中没有相同的数值，所以无法计算众数；另外也可通过preserve; contract price, freq(x); sum x; list price if x==r(max); restore 来显示。
　　中位数：centile price或tabstat price, s(med)，当然tabstat还可以计算均数、样本量、标准差，标准误、方差、极差、四分位间距、变异系数、峰度系数、偏度系数等等很多指标。
　　不过采用Stata（summarize ，tabstat等命令）计算的峰度系数与Excel、SPSS和SAS计算的结果有所不同，原因是采用的公式不同，大家根据实际情况来选择。
　　二、离散趋势指标
　　极差（全距）：tabstat price, s(r)
　　标准差：tabstat price, s(sd)
　　方差：tabstat price, s(v)
　　四分位间距：tabstat price, s(iqr)
　　变异系数：tabstat price, s(cv)
　　采用summarize ， detail命令可以计算均数、标准差、峰度系数、偏度系数、多个百分位数。不加detial可以得到最大值、最小值。

回归分析
一、概念介绍
R²，又叫做决定系数（coefficient of determination），是来说明自变量解释因变量变化百分比的度量，R²越接近1，表示回归越成功。

pearson相关系数（Pearson‘s correlation coefficient），用字母r表示，主要描述线性相关强度的量，取值（-1，1）之间，当两个变量有很强的线性相关时，相关系数接近于1（正相关）

最小二乘法（least squares regression），最小二乘法就是寻找一条直线，使得所有点到该直线的垂直距离的平方和最小，也就是方差最小

F分布，

X²分布（卡方分布）

t分布
比较样本均值所代表的未知总体均值μ和已知总体均值μ1的异同。
类型：独立样本t检验和配对样本t检验

week4
正态分布：一条呈钟形的对称曲线。对于一个服从正态分布的随机变量，它的均值、众数和中位数相同，都在概率分布曲线的最高点上。其相对频率从中间逐渐向两端递减。
与中央极限定理的关系，是经典统计估计的基石。
判断标准：1、看频数（百分比）分布形状；2、计算均值（70.7）、中位数（70）与众数（70）。

均值决定正态分布中心的位置，标准差决定正太分布钟形的形状。标准差决定正态分布的钟形形状——标准差越大，钟形越扁平

标准正态分布：均值为0，标准差为1的正太分布为标准正太分布，亦称为Z分布，Z的单位与标准差的长度相同。一般正太分布值转为标准正太分布：Z=（x-μ）/σ
Z值在某一范围的概率即相应范围内概率分布曲线下的面积。
p（Z<1.96）stata表示为：display normal(1.96)；p（Z>1.96）stata表示为：1-display normal(1.96)，如计算全体员工成绩（μ=70.07，σ=10.27），想知道成绩位于均值到85之间的比例
解：display normal((85-70.07)/10.27)-.5（其中原理就是先转化为标准正太分布值，然后求出标准下的面积，再减去平均值0.5）；反过来如果想通过比例求出分数线，即已知Z值，求x，x=Zσ+μ，stata代码：dis invnormal(.9)10.27+70.07（求处于公司前10%的分数线）

检查变量是否正太分布

symmetry plot：对称图，用来判断样本数据的分布是否是对称的。symmetry plot在判断样本数据是否符合对称分布时会有一条reference line 即参考线，这是一条完美的对称分布数据，样本数据越接近这条线，越对称。stata命令：symplot varname
qnorm:画出一幅分位-正太标绘图，就是比较样本数据和正态分布数据在各个分位数上的差异
kdensity:是一种估计对给定样本集合点随机变量分布的密度函数，属于非参数估计（参数估计指先验的假定数据符合某种特定的性态，如线性的、指数性态的等，由此判断数据样本是否符合这种分布），而非参数估计方法则不同，它对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布的方法。

抽样分布
抽样误差：样本的统计值（statistic）与总体参数（parameter）之间的差异
中央极限定理：对于一个均值为μ，标准差为σ的总体，无论它本身是否服从正太分布，如果无数次从总体中抽取样本量为n的样本，随着n 的增大，那么样本均值的分布将服从均值为μ，标准差为σ/根号n的正太分布，即：

比例的抽样分布：对于一个某特定时间发生比例为π的总体，如果从中无限次抽取样本量为n的样本，那么随着n的增大，样本比例P的分布将服从均值为π，标准差为根号下π（1-π）/n,即

例题：某公司男女人数相同，现在随机抽取100名员工，问样本中男人人数大于等于60人概率是多少？
dis sqrt(0.5*0.5/100) #求出标准差为0.05，所以这是一个均值为0.5，标准差为0.05的正太分布
dis (0.6-0.5)/0.05 #转化为标准正态分布，求出Z=0.2
dis 1-normal(2) #求出的就是大于等于60%的面积=0.022

置信区间
通过统计推断找到包括样本统计量在内的一个区间；即通过有限样本，估计出未知参数以多大的概率在某一区间内取值。根据样本均值分布特点，该区间被认为包含总体参数。

置信水平（1-α）
总体参数落入某区间的概率。也就是“准确估计”的信心。而α称为错误水平。常用置信水平：95%、99%

计算置信区间的通用公式
公式：点估计值+-（关键值）*（标准误差）
点估计值，指样本统计值（均值、比例）
关键值，指根据抽样分布和置信水平决定的一个固定值Z α/2，如95%的置信区间，Z α/2=±1.96
标准误差是抽样分布的标准差：σ/sqrt(n)

例子

均值的置信区间规律
置信水平相同的情况下，样本量越大，区间越小；
样本量相同的情况下，置信水平越高，区间越大（这是因为由于数据样本相同，要想满足更高的置信水平，就必须有更大的置信区间，这样才能保证样本数据可以更正确的落入该区间）
区间越大，总体均值落在其间的可能性越大，估计正确的概率越大（犯错误的可能性越小），但估计的精确度越小；区间越小，估计的精确度越大，但估计错误的概率也越大

求置信区间的stata命令
dis 平均值+-关键值*（标准差/根号下样本量n）
ci var，level（）

小样本参数估计：t分布
t分布:参数估计的过程中，当总体标准差未知时，我们使用样本的标准差代替。但是这种处理方式仅适用于样本数量较大时，样本数量小的话就会影响精度。因此，我们通常用t分布对小样本均值（比例）进行估计

t分布作用：比较样本均值所代表的未知总体均值μ和已知总体均值μ1的异同。
类型：独立样本t检验和配对样本t检验

t分布公式和性质
μ指平均值，s指样本标准差

小样本均值（比例）的置信区间

不同于大样本均值的置信区间关键值是Zα/2/,t检验的关键字是t α/2 ,下图为大样本均值和比例置信区间公式

t分布的使用
只有当总体参数已知或者样本容量较大的时候，才使用z分布进行估计，否则使用t分布。一般情况下，在不确定的情况下，使用t分布，因为它更加保守

假设检验，也称作显著性检验，是利用样本统计值对关于总体参数的假设进行评估检验的方法和程序。
原假设（null hypothesis），一个关于“没有显著差异”的陈述，记为H0（可以或不可以被拒绝）
备择假设（alternative hypothesis），与原假设相互排斥的对立假设，即“有显著差异”的陈述，记为Ha。（是否被验证：如果原假设被拒绝，即可以被验证，如果原假设不能被拒绝，即没有被验证）

t值计算
p，即拒绝原假设放错误的概率

显著性水平α

单尾假设和双尾假设
选择双尾或单尾检验的标准：除非要强调检验的方向（如大于或小于），通常使用双尾检验，因为它更保守
双尾检验
H0：μ=μ0 or μ-μ0=0
H1：μ≠μ0 or μ-μ0≠0
左尾检验
H0：μ≥μ0 or μ-μ0≥0
H1：μ＜μ0 or μ-μ0＜0
右尾检验
H0：μ≤μ0 or μ-μ0≤0
H1：μ＞μ0 or μ-μ0＞0
计算方式：现根据条件计算出t值（t= （x-μ)/(s/sqrt(n))），然后通过stata求出p=dis 2*ttail（n-1，t）
如果p<α，就可以拒绝原假设，否则不能拒绝原假设

总体比例(π)的假设检验
用于类别（二项分布）变量
检验过程和均值假设检验一致
关键值t的计算公式t=（p-π）/sqrt(P(1-P)/n)（π：特定事件发生的比例为π）

双变量和多变量分析
单变量分析，对单一变量的描述和推论统计分析
双变量分析，对两个变量之间的关系~~~
多变量分析，对三个或更多个变量之间的关系~~~

自变量（independent variable）和因变量（dependent variable）
双变量分析，一个自变量一个因变量
多变量分析，一个因变量，两个或以上个自变量
结构方程模型，有超过两个的自变量和因变量

双变量分析

T检验
T检验，两个变量，因变量为定距-定比变量，自变量为定类-定序变量，且自变量只有两类（如男性和女性，城市和乡村，盈利与亏损等），
典型的T检验：检验两个群体（两类）的均值是否有显著差异，如收入是否有显著性别差异；
扩展1：检验一个变量的均值跟一个设定值之间是否有显著的差异（即前面的假设检验内容）；
扩展2：检验两个变量的均值是否有显著差异（配对样本）

T检验，stata命令
检验均值与一个设定值的差异：ttest varname=x,level=(#)
均值与设定值检验方法二：计算t检验 ttesti obs mean std μ（设定值），level（#）
方法三：通过求出置信区间，看设定值是否落入区间来判断：ci varname,level()
检验两个子群体均值的差异：ttest varname,by (group)
检验两个变量均值的差异：ttest varname1=varname2

检验两个群体的均值差异
stata命令验证：ttesti obs1 mean1 sd1 obs2 mean2 sd2,unequal

求出t值后，计算p值 p=dis 2*ttail（obs1+obs2-2，t）
注意下面

比较两个变量均值：配对样本
ttest varname1=varname2

定量数据分析笔记

猜你喜欢

热点阅读