变异系数详解
目录
前言
- 什么是CV?
- 什么是量纲
- CV和标准差的关系
前言
今天简单讲解下一个统计学指标:变异系数CV(coefficient of variation)
当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。
1. 什么是CV?
首先我们要理解,什么是变异系数CV(coefficient of variation)。从数值上来看,它等于样本的标准差除以样本均值,即:
CV的意义:反映出随机变量在以它均值为单位时取值的离散程度。CV没有量纲,这样就可以进行客观比较了。看上去似乎很模糊,下面让我用一个实际例子来说明下。
已知某养猪场有:
A种猪平均体重为190kg,标准差为10.5kg
B种猪平均体重为196kg,标准差为8.5kg
这样,当我们计算他们的CV后:
A种猪CV=10.5/190=0.0552631579
B种猪CV=8.5/196=0.0433673469
这个结果说明了,A种猪每长1kg的猪肉,可能会有0.055kg的变异出现。而B种猪每长1kg的猪肉,可能会有0.043kg的变异出现。
这就说明B种猪体重的变化更加小,变异更小。
2. 什么是量纲
先用一个简单的例子来说明,如果我们有1个草莓和2个西瓜,假设草莓1元/个,西瓜15元/个。
那么如果问,1个草莓加上2个西瓜需要多少钱?
我们这个时候不能直接1+2=3进行计算,因为这样就失去了关于水果种类的一切信息,在这里也就是水果的价格。
如果我们想要计算,有2种方式:
把西瓜转化为草莓的价格,即将量纲统一:1个西瓜=15个草莓,这样我们就知道1个草莓+2个西瓜=31个草莓(单位是草莓)
把西瓜和草莓的价格属性去除,即去除量纲:草莓每个1/1=1,西瓜每个15/1=15,这样我们就知道1个草莓+2个西瓜=31(没有单位)
3. CV和标准差的关系
CV和标准差之间的关系,我们用一个例子来说明:
image.png
image.png
从这个例子中,我们可以看到,如果依据标准差SD来看,我们可能以为身高的离散程度更高;但是如果根据变异系数来看,我们却发现体重的离散程度更高。哪个是对的呢?
这里其实我们应该看变异系数,因为身高和体重的量纲是不同的。
CV和标准差的差别主要在于量纲上的差异。