数据分析学习笔记

商务与经济统计学 第三章 描述统计学II:数值方法(上)

2019-03-15  本文已影响0人  今天有觉悟1

3.1 位置的度量


因为平均数、加权平均数、中位数较为简单,所以不加以更深的论述,着重说一下几何平均数。

3.1.4 几何平均数

几何平均数是一种位置度量,它是n个数值乘积的n次方根。

在财务、投资和银行业的问题中,几何平均数的应用尤为常见,当你任何时候想要确定过去几个连续时期的平均变化率时,都能应用几何平均数。其他通常的应用包括物种总体、农作物产量、污染水平以及出生率和死亡率的变化。注意,几何平均数也可以用于发生在所有时间长度的连续时期的任何数量的变化率。除了年变化率外,几何平均数也常常用于发现季度、月、周以及天的平均变化率。

3.2 变异程度的度量

3.2.3 方差

image

3.2.4 标准差

3.2.5 标准差系数

一般地,在比较具有不同标准差和不同平均数的变量的变异程度时,标准差是一个很有用的统计量。

3.3 分布形态、相对位置的度量以及异常值的检测

3.3.1 分布形态

3.3.2 Z-分数

相对位置的度量值能够帮助我们确定一个特殊的数值距平均数有多远。

3.3.3 切比雪夫定理

切比雪夫定理

与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z^2),其中z是大于1的任意实数。

切比雪夫定理能使我们指出与平均数的距离在某个特定个数的标准差之间的数据值所占的比例。

3.3.4 经验法则

人们发现许多数据集具有类似图3-5所对称的峰形或钟型分布。当数据被认为近似于这种分布时,就可以运用经验法则来确定与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。

3.3.5 异常值的检测

有时数据集中会包含一个或多的数值异常大或多个一场小的观测值,这样的极端值称为异常值。

①标准化数值(z-分数)可以用来确认异常值。我们建议把z-分数小于-3或大于+3的任何数值都视为异常值。然后,对它们的准确性进行检查,以确定他们是否属于数据集。

②第一四分位数和第三四分位数(Q1和Q3)以及四分位数间距(IQR)为依据

下限 = Q1 - 1.5 X IQR

上限 = Q3 + 1.5 X IQR

上一篇下一篇

猜你喜欢

热点阅读