描述统计性分析

2019-04-18 本文已影响0人 Doraay

统计学是人工智能的基础知识，也是投资领域的核心技能。

描述统计学即对大量信息进行归纳。数据越多，事实越模糊，所以需要对已有信息进行简化，将一系列复杂的数据减少为几个能起到关键作用的数字。如奥运会的体操比赛中，将一套高难度的复杂动作简化成为一个得分。如上所述，描述统计学即将一系列复杂的数据减少为几个能够起到描述作用的数字，用这些有代表性的数字来代表这个数据集，这样当我们面对一大堆数据的时候，在不知道所有数据信息的情况下就能知道这个数据集的整体情况。

描述统计学的关键点在于找到几个关键的数字，来描述数据集的整体情况。

描述数据集的4个常用指标：平均值，四分位数，标准差，标准分。

①平均值：

不能代表数据集的整体情况（平均值的缺点是对异常数值不敏感，当数据中有异常值时，用平均值来描述数据是不准确的）——即不能用人均收入来衡量国内各行业的平均收入

②四分位数（与中位数有重要关系，可以从整体上描述出数据集的分布状态，但是却无法显示数据集的波动幅度）：

中位数的计算：

1）按从小到大的顺序排列数据

2）计算中间位置：

a.如果n是奇数，则中位数是位于中间的数值

b.如果n是偶数，则中位数是中间两个数的平均值

四分位数的计算：

描述统计性分析

1）求中位数：

中位数左边的数据都小于中位数，占全部数据的50%，中位数右边的数据都大于中位数，占全部数据的50%

2）求下四分位数，上四分位数：

求中位数左（右）边数据的中位数，得到下（上）四分位数，下（上）四分位数将中位数左边的数据一分为二

下四分位数、中位数、上四分位数将整个数据分成了4份，每一份数据的数目占整个数据集的25%

四分位数即下列5个数值：①下界（数据集最小的数值）②下四分位数Q1③中位数Q2④上四分位数Q3⑤上界（数据集最大的数值）

利用求出的四分位数做箱线图：

描述统计性分析

①纵轴从下至上按顺序排序，画出四分位五个数值的位置，即箱线图

②箱线图所描述的信息：

上界为22km，但中位数离下四分位数较近，表明大部分数据集中在箱线图下端，即大部分数据的值在下四分位数和中位数之间，这样通过四分位数和箱线图可以了解数据集的整体情况

四分位数和箱线图的应用：

1.比较不同类别数据集的整体情况

描述统计性分析

上面的箱线图是对不同城市数据分析师的薪酬比较，横轴是对数据分析需求排名靠前的6个城市，纵轴是每月的薪酬。通过比较可得，6大城市的薪酬分布情况总体来说比较集中。中间的红线（中位数）相差不多，深圳薪酬分布中位数大概为15k，居全国第一位；其次是北京，大约是12.5k；之后是上海和杭州

第二个箱线图是不同经验工作薪水的比较。

横轴是工作年限，纵轴是薪酬。通过不同类别的数据比较发现，随着工作年限的上升，薪资待遇的上升也非常明显，尤其是3-5年提升的跨度非常大。从现有的数据来看，数据分析师是一个长期的职业方向，在10年内大概不会因为年龄增长而导致收入下降，反而会有急剧的上升。

使用Python来绘制箱线图会比较方便。但现在重点在于理解箱线图的原理和掌握如何应用。

2.在数据集中识别出可能的异常值

有时候数据集中会包含一个或多个非常大或者非常小的数值，这种极端的数值即为异常值。

①识别出可能的异常值

②对异常值进行检查和处理（对找出的异常值的准确性进行进一步检查，从而确定如何处理这些异常值）

描述统计性分析

处理异常值通常有3种方法：

a.异常值可能是一个被错误标记记录的数据值，如果是错误的数据，即在进一步数据分析之前将其修正。如在全国人口统计中，出生了一个叫wsc的婴儿，wjl前来登记，但是手动将wsc的性别输入为女，这种情况下的异常值则需要进一步核对然后将其修改过来。

b.异常值可能是一个被错误包含在数据集中的值，这种情况删除该异常值即可。

c.异常值可能是一个反常的数据值，但该值为真实数值。即被正确记录到数据集中，需保留。

如上所述，下面可以了解四分位数是如何识别出可能的异常值的：

描述统计性分析废旧

该方法用于计算出数据集中的最小估计值和最大估计值，超过最小估计值和最大估计值范围的数值即可能为异常值。

最小估计值和最大估计值的计算公式如上，可以根据不同的数据分析目的对k进行取值。若k=1.5，则取值在中度异常的范围；若k=3，则去旨在极度异常的范围。

如下图所示：

描述统计性分析

红色部分为k=1.5时计算出的中度异常的范围，蓝色部分为k=3时计算出的极度异常的范围，超过这个范围的数值即有可能为异常值。这样即可以从大量数据中自动识别出异常值。

下面为该方法应用到的实际案例：

假设我们记录了一个房间的温度值，其中总共有12个数值，哪个数值可能为异常值呢。如图中所示步骤：

描述统计性分析

1）对12个数值进行从小到大的排序，计算出下四分位数Q1=70℃，上四分位数Q3=71.5℃；

2）将计算出的如上两个数值代入异常值的计算公式，在该实例中k取值为1.5，经过计算得到温度的范围是67.75-73.75℃，即超过该数值范围的值为异常值。该案例中超出范围值为300℃，故其为异常值。如上，通过该公式可自动识别出异常值。

描述统计性分析

3）进一步检验该值是否为异常值：

考虑到我们研究的物质温度不可能是300℃，一定是记录有错误，所以我们将这个错误记录的数值在数据分析之前删掉。

③标准差

应用案例1：用标准差判断NBA球员的稳定性

在NBA中，用平均数据衡量球员的战斗能力，比如场均得分等。如下列出了NBA场均得分排名前十的球员，现在需要考虑这样一个问题，如果你是教练，想知道哪位球员发挥最稳定，需要找到某种方法，能够利用球员所得分数的风向性，判断球员的稳定程度。

首先了解什么是数据的波动大小：

通常用离散程度和变异大小来表示数据集之间偏离平均值的程度。波动大小可以直观的代替离散程度这个专业术语。

如何衡量数据的波动大小：

如果能够算出数据集里的每个数值与平均值的某种平均距离，那么就有办法来衡量该数据集的波动大小。标准差是一个能够帮助我们在众多复杂的数据中发现事实的统计值。通常用它来衡量数据相对于平均值的波动大小。

标准差的计算（假设数据集中有3个数，x1、x2、x3）：

1）先计算方差：（每个数值-平均数μ）的平方之和/数据集总数n

描述统计性分析

如上得到各个数值与平均数的平均距离，为什么需要对（每个数值-平均数μ）做平方，因为有时候数量变化与平均值是反向偏离的，即（每个数值-平均数μ）的结果会是负数，平方后即可消除负号。之后再求平均数时，每一个数值才不会被正负抵消掉，最后求出的平均值才能更好的体现出每次变化偏离平均值的情况。最后求出平均值后还需要再做开方，因为之前为了消除负号进行了平方，所以第二步要把求出的平均值开方，将数值偏离平均值的幅度还原到原来的等量级。方差开方即为标准差σ，标准差描述了数据集在整体变化过程中偏离平均值的幅度，即波动大小，当数据集中的数据量过大时，需要用专门的工具来快速计算出标准差，上述公式是为了解释标准差是怎么来的，对之后的应用和理解会有很大帮助。

下图为标准差应用的实际案例，即用标准差衡量NBA球员的稳定性（波动大小）：

描述统计性分析

详解过程

方差=[（x1-μ）²+（x2-μ）²+...+（x10-μ）²]/n=[x1²+...+x10²-2μ（x1+x2+...+x10）]/n=[x1²+...+x10²+1000-20（7+9*2+10*4+11*2+13）]/10=[x1²+...+x10²+1000-2000]/10=（x1²+...+x10²）/10-1000=2.2

描述统计性分析

假设有3个球员平均得分都是10分，如果我们作为教练想知道哪个球员发挥更稳定，则需要用到标准差来判断。按照前面计算标准差的方法，可以快速计算出球员1加内特的标准差为1.48，球员2库里的标准差为7.02，球员3詹姆斯的标准差为1.73。下面通过比较3名球员的标准差来判断谁的发挥更稳定。

描述统计性分析

球员1的标准差最小，表示他的所有得分偏离平均值最近，即波动性最小，发挥最稳定。

球员2的标准差最大，波动性最大，发挥最不稳定。

标准差的两个问题：

1）标准差的单位与所计算数据的单位一致

2）标准差更大还是更小比较好取决于数据分析的目的。如果研究的对象是生产机器的标准零件，则需要标准差小一点，这样才能保证所有零件的大小一致，波动性最小；如果研究对象是一家大型公司的工资，则需要标准差大一点，因为大公司的工资会因为职位的不同产生较大波动性。

应用案例2：用标准差衡量股票波动大小

投资者在做决策时不仅要考虑预期回报，还要分析比较投资风险。衡量股票波动大小的工具即为标准差，标准差越大，说明股票未来净值变动的程度可能比较大，风险也越高。

如下图，假如有A和B两家公司，A公司10年内的平均收益率为14%，标准差为10.6%；B公司平均收益率为14%，标准差为12.8%。由于B公司的标准差更大，即股票波动性更大，所以B公司的股票风险比A公司大，投资时要更谨慎。但投资股票需要考虑很多因素，标准差只是其中一个因素。

描述统计性分析

补充：夏普比率

描述统计性分析

夏普比率=（投资回报-无风险回报）/投资组合的标准差

其中无风险回报即银行存款或国库券等稳健的投资回报。夏普比率越高说明投资相对而言回报越高，风险越低。下图为近十年各国股指基金的夏普比率。

从图中可以看到，美国的股市表现最好，中国位列第二，在10年的时间里，美国股市尽管表现最好，但夏普比率也仅为0.47，接近50%，说明波动性几乎是回报的2倍，即风险是回报2倍。中国和德国的风险几乎是回报的5倍，其他发达国家几乎没有回报而只有波动性。

④标准分（即相对排名——排名第几）：

描述统计性分析

标准分由平均值和标准差计算得到，如上图，假设数据集只有3个数据x1，x2，x3，需要计算出x2在这个数据集中的相对位置，即标准分。

1）标准分的计算：

描述统计性分析

标准分Z2=（x2-μ）/σ（标准差也叫Z分数或标准化值）

2）标准分的意义：

描述统计性分析

标准分表示某个数值距离平均值多少个标准差，这样可以知道数值和平均值的相对接近程度。如果某个数值的标准分等于0，则表示该数值等于平均值本身；如果某个数值的标准分大于0，表示该数值大于平均值；如果某个数值的标准分小于0，表示该数值小于平均值。如上图，有99.5的数值在2个标准差范围之内，距离中间平均值左（右）边的数值小于（大于）平均值，故为2个标准差前加负号（正号）。

应用案例：质量管理（6σ——即距离平均值6个标准差，标准分为6）

描述统计性分析

在质量管理中可以通过标准分知道数据偏离标准（即平均值）多大程度，从而可以检测出次品。

股票涨跌幅的绘制：

描述统计性分析

描述统计性分析

猜你喜欢

热点阅读