统计学期末

2020-06-17  本文已影响0人  F_er

第一章 导 论

1.什么是统计学

2.参数和统计量

第二章 数据的搜集

1.数据的来源

2.数据误差

第三章 数据的图表展示

1.数据预处理

2.分类数据图示

数据的类型与主要图示方法
帕累托图
环形图

1> 组数 5≤ K ≤15

2> 组距 组距=(Max-Min)/K

3> 为解决不重的问题,统计分组习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。即a≤ x <b

第四章 数据的概括性度量

1.集中趋势的度量

不同分布的众数、中位数和平均数 Me表示中位数
  • 众数不受极端值影响,具有不唯一性
  • 中位数不受极端值影响,数据分布偏斜程度较大时
  • 平均数易受极端值影响

2.离散程度的度量

离散程度度量
  • 标准分数:也称标准化值或z分数(将数据平均值变为0,标准差为1)
    z_i=\frac{x_i-\overline{x}}{s}

  • 经验法则:对称分布

  • 切比雪夫不等式:不是对称分布

离散系数
v_s=\frac{s}{\overline{x}}

离散系数越大,数据离散程度越大

3.偏态与峰态

第五章 概率与概率分布

正态分布

X服从正态分布,记作X~N(\mu,\sigma^2)

参数对曲线位置形状影响

\mu决定图形中心位置,\sigma决定曲线陡峭程度

标准正态分布

\mu=0,\sigma=1时 ,X~N(0,1),即X服从标准正态分布

第六章 统计量及其抽样分布

1.由正态分布导出的几个重要分布

E(Y) = n ,D(Y) = 2n

小样本方法

n≥2,E(t) = 0

n ≥ 3, D(t) = \frac{n}{n-2}

方差分析,回归方程的显著性检验

n>2,E(X)=\frac{n}{n-2}

n>4,D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)}

如果随机变量X服从t(n)分布,则X^2服从F(1,n)的F分布=>回归分析回归系数显著性检验

2.中心极限定理

定义:设从均值为\mu、方差为\sigma^2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时(n≥30),样本均值\overline{x}的抽样分布近似服从从均值为\mu,方差为\frac{\sigma^2}{n}的正态分布

第七章 参数估计

1.参数估计基本原理

置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间

置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(置信度或置信系数)

2.一个总体参数的区间估计

不同情况下总体均值的区间估计 例题:

第八章 假设检验

1.假设检验的基本问题

正确选择双侧检验和单侧检验

2.一个总体参数的检验

第九章 分类数据分析

1.拟合优度检验

根据总体的分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数观察频数是否有显著差异,从而达到对分类变量进行分析的目的。

在泰坦尼克号的例子中,我们关注在这次海难中幸存者的性别是否有显著差异,当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人。海难后存活比率为 718/2 208=0.325.如果是否活下来与性别没有关系,那么按照这个比率,在1738位男性中应该存活1738×0.325=565人,在470位女性中应该存活 470×0.325=153人。565和153就是期望频数,而实际存活结果就是观察频数。通过期望频数和观察频数的比较,能够从统计角度做出存活与性别是否有关的判断。

原假设:一致

2.独立性检验

独立性检验就是分析列联表中的行变量和列变量是否相互独立,是否存在依赖关系

原假设:不存在依赖关系

第十章 方差分析

1.单因素方差分析

方差分析(ANOVA):通过检验各总体的均值是否相等来判断分类型自变量数值型因变量是否有显著影响

因素(因子):方差分析中所要检验的对象

水平(处理):因素的不同表现

单因素方差分析:只有一个因素的方差分析

例如,行业为因素,零售业、旅游业、家电制造业等属于水平

总平方和 SST(sum of squares for total):全部观测值与总均值的误差平方和。

组间平方和 SSA(sun of squares for factor A):各组均值与总均值的误差平方和,反映个样本均值之间的差异程度,因此又称为因素平方和。

组内平方和 SSE(sum of squares for error):每个水平或组的各样本数据与其总均值的误差平方和,反映每个样本各观测值的离散状况,因此又称误差平方和。
SST = SSA + SSE

方差分析表

误差来源 平方和SS 自由度df 均方MS F值 P值 F临界值
组间(因素影响) SSA k-1 MSA MSA/MSE
组内(误差) SSE n-k MSE
总 和 SST n-1

n为全部观测值个数 ;k为因素水平(总体)的个数;MS=SS / df

2.双因素方差分析

第十一章 一元线性回归

相关系数:根据样本数据计算的度量两个变量之间线性关系强度的统计量

ρ:总体相关系数,根据总体全部数据计算的

r:样本相关系数,根据样本数据计算的

[-1,0) ==> 负线性相关

(0,1] ==> 正线性相关

r = -1==>完全负线性相关关系

r=1 ==>完全正线性相关关系

相关程度:

第十三章 时间序列分析和预测

1.时间序列及其分解

时间序列:同一现象在不同时间的相继观察值排列而成的序列,分为平稳序列非平稳序列

趋势:时间序列在长期内呈现出来的某种持续上升或持续下降的变动

季节性(季节变动):时间序列在一年内重复出现的周期性波动。

2.增长率分析

\overline{G}表示平均增长率;n表示环比值的个数

第十四章 指数

1.简单指数

简单综合指数:将报告期的指数总和与基期的指标总和相对比的指数
I_p=\frac{\sum p_1}{\sum p_0}
I_q=\frac{\sum q_1}{\sum q_0}

p——质量指标

q——数量指标

I_p——质量指标指数

I_q——数量指标指数

下标1——报告期

下标0——基期

简单平均指数
I_p=\frac{\sum \frac{p_1}{p_0}}{n}
I_q=\frac{\sum \frac{q_1}{q_0}}{n}

2.加权指数

加权综合指数

加权平均指数

。。。

指数计算

采用加权平均的方法
I_p=\frac{\sum iW}{\sum W}

i为代表规格品个数指数或各层的类指数;

W为相应的消费支出比重

上一篇 下一篇

猜你喜欢

热点阅读