CFA level 1 重点必会

必考知识点,CFA一级数量分析-抽样与估计

2020-03-23  本文已影响0人  温暖的法律

一种有效学习的方式,就是把你学得的东西再分享给别人。

文:蓝兔子读难NOTES

图:配图 来源于网络

编码:0009

[Quantitative Methods]

[Sampling and estimation]

数学作为一种工具,应用在金融领域,一般用于对目标资产进行估计和预测,从而协助投资者进行买入和卖出决策。正如我们前面所说,统计学分为描述性统计学和推断性统计学。描述性统计学通过一些统计量来描述数据的特征,如我们一般用均值来代表收益,用方差来代表风险。而推断性统计学在描述性统计学的基础上,利用描述性统计学得出的结论(通常是对样本的描述),来推断总体参数。

在前面数理统计基础那一篇文章中,我们所讲的内容主要就是描述性统计学的内容。而这篇文章,我们就进入了推断性统计学的内容。下一篇文章,我们将会进行假设检验的讲解。这篇文章主要的内容为抽样和估计,通过从总体中抽取样本获得样本统计量进行分析,从而反推总体的参数,对其进行估计。

引言

现实生活中,特别是在金融领域,我们每分每秒都在形成大量的交易数据。我们如何通过这么多的数据来评判整个全球市场的运行情况呢?近期频上热门的“熔断”想必大家都听说过吧。实不相瞒,某只股票熔断见识过,而交易所熔断,还真是孤陋寡闻第一次呢。

不过话说回来,某一只具体的股票熔断标准很好制定,涨跌幅定个值就行,那整个交易所的熔断要怎么制定呢?这就有点采样和估计的感觉了,我们先从该交易所的股票中选几只股票出来,对其进行分析,再用分析得出的样本统计量来评判整个股票市场的运行情况。如果抽样估计结果达到了熔断标准,那么不管每一个具体股票的情况如何,都piaji,整个交易所都得熔断。

实际上,目前美股熔断是以标普500指数为准,熔断阈值分为三级:一级市场熔断,下跌达到7%;二级市场熔断,下跌达到13%;三级市场熔断,下跌达到20%。下跌是以指数点位相对于前一日收盘点位的下跌幅度为准[1]。下面回到正题,我们来看看CFA一级的推断性统计学采样和估计相关的内容。

术语与概念

采样(sampling):从总体中抽取样本的过程。之所以要抽取样本而不是直接对总体进行估计,因为有时候总体可能非常大,根本不可能实施,或者实施起来的时间、人力和财力成本不划算。在描述性统计学那篇文章中,我们说过,用于描述总体特征的统计量我们叫做参数,而用于描述样本特征的数据我们叫做样本统计量从总体中获得样本的过程叫做抽样,而从样本统计量推断总体参数的过程叫做估计

抽样是一个非常关键的过程,如果一开始抽样都有问题,后面做得再好也是白搭。在实际抽样中,我们最常见的抽样方法有两种:

简单随机抽样(simple random sampling):如其名字一般简单,没有任何套路,每一个个体被抽到的概率相等;

分层随机抽样(stratified random sampling):分成两步,第一步先将被抽样的总体分层,第二步再在每一层进行简单随机抽样。

样本抽出来以后,我们还要对样本进行评估,因为无论我们如何抽,由于抽出的结果都不是原总体,所以总和原总体存在误差。在对样本进行评估时,我们考虑两个概念:

抽样误差(sampling error):如上文所说,无论如何抽,样本始终都不是原总体,所以同原总体存在差别,由样本得出的样本统计量和总体参数之间的差别就是抽样误差。

抽样分布(sampling distribution):抽样过程会抽出什么样的一个样本是不确定的,抽一次样就相当于抛一次骰子,结果是一个随机变量,随机变量存在一个分布。例如抛骰子就是一个结果为1-6,且每个结果出现概率相等的离散均匀分布。

数据类型,所谓数据类型,和程序员大哥的什么整型和浮点型是不一样的,这里的数据类型有两种:

时间序列(time-series):也可以理解为纵向数据,是同一个对象在时间线上的数据,比如华夏五千年,中国的经济发展变化。

截面序列(cross-sectional):横向数据,多个对象在同一时间的数据,比如2020年2月22日这天,全球各国的新型冠状病毒感染人数。

抽样

前面介绍了相关的术语和概念,这里进一步来讲抽样的问题。在进行抽样时,有一个非常关键的参数需要考虑,那就是样本容量(sample size)。虽然我们之前一直在说样本容量,但是样本容量该如何确认呢,样本容量是否越大越好呢?显然不是的,样本容量的选择要结合实际情况,大样本能获得更接近总体参数的样本统计量,但其耗费的成本也会上升。

在抽样时,还需要注意以下几个问题:

数据挖掘偏差(data-mining bias):有道是林子大了什么鸟都有,数据挖掘偏差指的就是对历史数据过分挖掘,找出了一些看似有影响,实则没什么意义的数据。

样本选择偏差(sample selection bias):这个好理解,抽样都没选对对象。为什么淘宝卖降落伞的没有差评呢?没有差评说明他们的降落伞质量好吗?通过抽取购买者的评论,能认定客户都满意吗?不能吧!这就是幸存者偏差(survivorship bias),后面还会经常出现的一个词。

前视偏差(look-ahead bias):你要调查某个公司5月的表现,你依靠财报来进行,然后他们的财报要6月才出,这种尴尬就叫做前视偏差。

时间段偏差(time-period bias):典型的部分不代表总体的情况,你不能拿第二次世界大战时全球的经济增长来代表人类近代的经济增长。

接下来,我们说一个非常重要的定理:中心极限定理(central limit theorem)。之前说过,我们在进行抽样时,抽样的结果是一个随机变量,它服从一定的分布。具体是什么样的一个分布呢,中心极限定理进行了解释:对任意一个总体进行简单随机抽样,如果样本容量足够大(30个以上),抽样的样本均值服从正态分布。具体的来讲,如果总体的均值和方差已知,分别为

,且简单随机抽样的样本容量大于30,则有其样本服从正态分布,且正态分布的抽样分布均值等于 ,样本方差等于 /n,其中n为样本容量。

上图来源于简书[2]

估计

说完抽样,下面来说估计。估计分为两种,一种是点估计(point estimate),一种是区间估计(confidence interval estimate)

所谓点估计,我们估计的结果是一个点,最常见的就是利用样本的平均值来估计总体的平均值。比如抽取某一个班同学的平均身高来代表全校同学的平均身高。

在进行估计时,我们期望尽可能的利用样本去准确的估计总体,这就有了估计量的三个理想特征:

无偏性(unbiasedness):理想估计量,以均值为例,样本均值的期望值应该等于总体均值;

有效性(efficiency):在无偏的基础上,可能有多个满足的统计量,应该选择样本方差最小的那一个;

一致性(consistency):随着样本容量的增加,样本统计量应该也越来越接近总体参数。

所谓区间估计,其估计的是一个能覆盖总体参数的区间,并且给出了该区间能覆盖总体参数的概率。这里特别说明一下,区间估计不是估计总体参数落在某区间的概率,而是这个区间能覆盖总体参数的概率,总体参数无论是否知道,它是一个固定的值。

上面所说的概率指的就是置信水平,用(1-α)表示,其中α为显著性水平(significance level)。因此可以看出,(1-α)的置信水平和α的显著性水平所代表的概率是一样的。

区间估计的方法,就是在点估计的基础上,上下偏移一个量,这个量就是置信因子*标准误。

(点估计量-置信因子*标准误,点估计量+置信因子*标准误)

其中:

点估计量不解释;

置信因子,取决于总体分布和α,以正态分布为例,α=1%时,1-α=99%,置信因子=2.58;α=5%时,1-α=95%,置信因子=1.95。换句话说,即当分布的概率在置信水平时,对应的标准差范围。

标准误:其实就近似于标准差,当总体方差已知时,可以使用:

    如果总体的方差未知,则要使用:

综上,最终的区间估计为:

方差已知(z分布):

方差未知(t分布):

注意,以上一个是z分布,一个是t分布。方差已知时,用z分布,n为样本容量,方差未知时,用t分布,如果是t分布,查表使用自由度,自由度为n-1。

最后,再送各位同学一句口诀:方差已知用z,方差未知用t,样本容量够大(30为界),tz皆可,非正态分布小样本不可估计。

部分资料来源:

[1] 南方财富网 . 美股熔断以哪个指数为准?美股熔断的标准

[2] statr. 中心极限定理的最最通俗解释

兔纸的相关文章

CFA一级数量分析-货币的时间价值

CFA一级数量分析-数理统计基础与收益

CFA一级数量分析-概率论基础

CFA一级数量分析-常见概率分布-上

CFA一级数量分析-常见概率分布-下

上一篇 下一篇

猜你喜欢

热点阅读