变异系数详解

2022-05-24  本文已影响0人  Z_bioinfo

目录

前言

  1. 什么是CV?
  2. 什么是量纲
  3. CV和标准差的关系

前言

今天简单讲解下一个统计学指标:变异系数CV(coefficient of variation)

当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。

1. 什么是CV?

首先我们要理解,什么是变异系数CV(coefficient of variation)。从数值上来看,它等于样本的标准差除以样本均值,即:

image.png
CV的意义:反映出随机变量在以它均值为单位时取值的离散程度。CV没有量纲,这样就可以进行客观比较了。看上去似乎很模糊,下面让我用一个实际例子来说明下。

已知某养猪场有:

A种猪平均体重为190kg,标准差为10.5kg

B种猪平均体重为196kg,标准差为8.5kg

这样,当我们计算他们的CV后:

A种猪CV=10.5/190=0.0552631579

B种猪CV=8.5/196=0.0433673469

这个结果说明了,A种猪每长1kg的猪肉,可能会有0.055kg的变异出现。而B种猪每长1kg的猪肉,可能会有0.043kg的变异出现。

这就说明B种猪体重的变化更加小,变异更小。

2. 什么是量纲

先用一个简单的例子来说明,如果我们有1个草莓和2个西瓜,假设草莓1元/个,西瓜15元/个。

那么如果问,1个草莓加上2个西瓜需要多少钱?

我们这个时候不能直接1+2=3进行计算,因为这样就失去了关于水果种类的一切信息,在这里也就是水果的价格。

如果我们想要计算,有2种方式:

把西瓜转化为草莓的价格,即将量纲统一:1个西瓜=15个草莓,这样我们就知道1个草莓+2个西瓜=31个草莓(单位是草莓)

把西瓜和草莓的价格属性去除,即去除量纲:草莓每个1/1=1,西瓜每个15/1=15,这样我们就知道1个草莓+2个西瓜=31(没有单位)

3. CV和标准差的关系

CV和标准差之间的关系,我们用一个例子来说明:


image.png
image.png

从这个例子中,我们可以看到,如果依据标准差SD来看,我们可能以为身高的离散程度更高;但是如果根据变异系数来看,我们却发现体重的离散程度更高。哪个是对的呢?

这里其实我们应该看变异系数,因为身高和体重的量纲是不同的。

CV和标准差的差别主要在于量纲上的差异。

上一篇 下一篇

猜你喜欢

热点阅读