女神选择的背后,是一场数据分析的较量
前阵子看到一篇用数据可视化软件FineBI 为女神选婚房的文章,利用各种可视化展现了各个指标。所以有感而发,想用数据分析来量化评判一个女神的标准。
很多时候,经常利用多个数据指标对整体进行综合评价,这叫多指标综合评价。
下面以一个挑选女神的案例来带你了解综合数据分析。
女神的选择
富帅们看着美女的数据,在进行激烈的讨论...
其他三富帅都有喜欢的人选,只有李富帅喜欢“综合起来最好的”类型,到底是哪个?
小龙女是最好的?虽然她最高,但是体重和胸围都不是最优的
赵敏头发是最长的,但是其他数据也不是最好
要找出“综合最好的”,需要把各项数据进行综合评分,这样就能帮李富帅找到心目中的女神!
接下来看操作方法:
第一步、无量纲处理:
“量纲”是什么?
就是数据的单位,例如厘米、公斤等等。
为什么要进行无量纲处理?
我们对一个美女综合评分不能直接相加,因为身高和胸围单位不同,并且数据范围相差太大,直接相加没有任何意义,这是数据分析人员最常犯的错误之一。
具体怎么操作?(重点)
小龙女的身高:x=1.7
全部美女身高的均值:μ=1.635
全部美女身高的标准差:σ=0.0363
那么小龙女身高的标准化z=(x-μ)/σ=(1.7-1.635)/0.0363=1.8当
然,实际计算不需要这么麻烦,下载模板填数据就ok啦~~~
标准化的结果如下:
左侧四列数据为Z标准分,右侧数据为T标准分,T=50+100*Z,这样做的目的只是为了调整数据的范围,便于比较,因为看大一些的数字要直观多啦,不然Z标准分的小数点看着眼花~~~
结论:赵敏综合评分最高~~~
这样一分析,赵敏应该是李富帅心目中的女神~~~~
但是!李富帅对结论却不满意
第二步、权重确定
由于李富帅提出了进一步的要求,需要重新找出女神,接下来我们要做的,是确定身高、头发长度、胸围的权重,权重是帮我们找出女神的好方法。
那么问题来了,权重又是什么鬼?
权重是一个相对的概念,针对某一指标而言,某一指标的权重是指该指标在整体评价中的相对重要程度。
身高、胸围、头发长度这三个指标中间,李富帅可能会更喜欢高个大长腿,而对长头发短头发不甚在意。在上一期文章中,综合评分=身高得分+胸围得分+头发得分,这也默认了三个指标的权重是一致的,而本期我们会增加权重的概念。
加权之后,计算综合评分会变成这种样子:
综合评分=身高得分*60%+胸围得分*30%+头发得分*10%(各个指标的权重之和必须等于1)
当然不是!常用的权重确定方法有两类主观赋权法和客观赋权法
主观赋权法
主观赋权法没有统一的标准,简单的说就是找一堆人过来凭感觉瞎猜,来,跟我一起念:ping gan jue xia cai~~~~,这里只介绍砖家调查法,简便易行。
找一堆砖家过来先坐着,李富帅找来了自己的基友们(为便于理解只选了3个砖家,实际应用时越多越好)
让每个砖家给出自己的权重,并计算均值
数据分析其实也很简单对吧?加权后的女神们得分结果如下
结论:
很明显小龙女得分最高!
小龙女才是真正的女神!
为何这么难搞,活该他找不到女神...但是他的想法是对的,主观赋权法的问题在于客观性较差,如果李富帅的基友们审美有问题,那坑你没商量!为了让李富帅闭嘴,我们再试试客观赋权法。
客观赋权法
赋权法是与主观赋权法相对而言的,是根据指标的原始数据,通过数学或者统计方法处理后获得权重,常见的有主成分分析、因子分析、相关、回归等。
客观赋权法而且比较繁琐,我们的宗旨是简单易行接地气,下面介绍标准差系数权数法。
标准差系数权重法是根据每个指标的变异程度大小来进行赋权,变异程度大的说明能够更好的区分各个指标,应赋予更高的权重,反之赋予较小的权重。
利用软件经过惨无人道的计算之后...
身高权重=0.093075613
胸围权重=0.279571615
头发权重=0.627352772
结论:
赵敏综合评分最高
赵敏是女神!
看到这个结果,李富帅彻底怒了!!!
麻大师颤颤巍巍起身,说还有更好的办法。
于是拿出一沓照片
李富帅当即哑口无言。
果然,这个看颜的时代。。。
再精确的数值也敌不过直截了当的“可视化”。