自我修养

女神选择的背后,是一场数据分析的较量

2016-08-01  本文已影响19人  帆软

前阵子看到一篇用数据可视化软件FineBI 为女神选婚房的文章,利用各种可视化展现了各个指标。所以有感而发,想用数据分析来量化评判一个女神的标准。

很多时候,经常利用多个数据指标对整体进行综合评价,这叫多指标综合评价。

下面以一个挑选女神的案例来带你了解综合数据分析。

女神的选择

富帅们看着美女的数据,在进行激烈的讨论...

其他三富帅都有喜欢的人选,只有李富帅喜欢“综合起来最好的”类型,到底是哪个?

小龙女是最好的?虽然她最高,但是体重和胸围都不是最优的

赵敏头发是最长的,但是其他数据也不是最好

要找出“综合最好的”,需要把各项数据进行综合评分,这样就能帮李富帅找到心目中的女神!

接下来看操作方法:

第一步、无量纲处理:

“量纲”是什么?

就是数据的单位,例如厘米、公斤等等。

为什么要进行无量纲处理?

我们对一个美女综合评分不能直接相加,因为身高和胸围单位不同,并且数据范围相差太大,直接相加没有任何意义,这是数据分析人员最常犯的错误之一。

具体怎么操作?(重点)

小龙女的身高:x=1.7

全部美女身高的均值:μ=1.635

全部美女身高的标准差:σ=0.0363

那么小龙女身高的标准化z=(x-μ)/σ=(1.7-1.635)/0.0363=1.8当

然,实际计算不需要这么麻烦,下载模板填数据就ok啦~~~

标准化的结果如下:

左侧四列数据为Z标准分,右侧数据为T标准分,T=50+100*Z,这样做的目的只是为了调整数据的范围,便于比较,因为看大一些的数字要直观多啦,不然Z标准分的小数点看着眼花~~~

结论:赵敏综合评分最高~~~

这样一分析,赵敏应该是李富帅心目中的女神~~~~

但是!李富帅对结论却不满意

第二步、权重确定

由于李富帅提出了进一步的要求,需要重新找出女神,接下来我们要做的,是确定身高、头发长度、胸围的权重,权重是帮我们找出女神的好方法。

那么问题来了,权重又是什么鬼?

权重是一个相对的概念,针对某一指标而言,某一指标的权重是指该指标在整体评价中的相对重要程度。

身高、胸围、头发长度这三个指标中间,李富帅可能会更喜欢高个大长腿,而对长头发短头发不甚在意。在上一期文章中,综合评分=身高得分+胸围得分+头发得分,这也默认了三个指标的权重是一致的,而本期我们会增加权重的概念。

加权之后,计算综合评分会变成这种样子:

综合评分=身高得分*60%+胸围得分*30%+头发得分*10%(各个指标的权重之和必须等于1)

当然不是!常用的权重确定方法有两类主观赋权法和客观赋权法

主观赋权法

主观赋权法没有统一的标准,简单的说就是找一堆人过来凭感觉瞎猜,来,跟我一起念:ping gan jue xia cai~~~~,这里只介绍砖家调查法,简便易行。

找一堆砖家过来先坐着,李富帅找来了自己的基友们(为便于理解只选了3个砖家,实际应用时越多越好)

让每个砖家给出自己的权重,并计算均值

数据分析其实也很简单对吧?加权后的女神们得分结果如下

结论:

很明显小龙女得分最高!

小龙女才是真正的女神!

为何这么难搞,活该他找不到女神...但是他的想法是对的,主观赋权法的问题在于客观性较差,如果李富帅的基友们审美有问题,那坑你没商量!为了让李富帅闭嘴,我们再试试客观赋权法。

客观赋权法

赋权法是与主观赋权法相对而言的,是根据指标的原始数据,通过数学或者统计方法处理后获得权重,常见的有主成分分析、因子分析、相关、回归等。

客观赋权法而且比较繁琐,我们的宗旨是简单易行接地气,下面介绍标准差系数权数法。

标准差系数权重法是根据每个指标的变异程度大小来进行赋权,变异程度大的说明能够更好的区分各个指标,应赋予更高的权重,反之赋予较小的权重。

利用软件经过惨无人道的计算之后...

身高权重=0.093075613

胸围权重=0.279571615

头发权重=0.627352772

结论:

赵敏综合评分最高

赵敏是女神!

看到这个结果,李富帅彻底怒了!!!

麻大师颤颤巍巍起身,说还有更好的办法。

于是拿出一沓照片

李富帅当即哑口无言。

果然,这个看颜的时代。。。

再精确的数值也敌不过直截了当的“可视化”

上一篇下一篇

猜你喜欢

热点阅读