统计的乐趣 - 致敬大师罗斯林
做数据分析的朋友一定知道统计学,是我们工作的基础。在我们眼中,统计学是很多数字和模型组成的,略显枯燥。
最近看了一个纪录片《The joy of stats》,中文译名有趣的统计学,今天给大家分享个有意思的瑞典统计学家汉斯.罗斯林,以及他眼中有意思的统计学。
《时代》杂志在2012年将汉斯·罗斯林评为了全球100位最有影响力的人物之一,称赞他使用“令人惊叹的数据展示,让全球数百万人从全新的角度审视自己和这座星球”。
01 统计学的起源与核心
首先谈到的是统计学的起源。statistics与status同源,意思是现象或现状,也与国家(states)相似含有国情调查意思,统治阶级利用数据监控老百姓,而现代统计学,是用于监控政府动态,研究社会现象的有力工具。瑞典政府是世界上第一个对人口进行统计的国家,1749年的人口统计报告表明瑞典只有两百万人口,而不是期待的2千万。
我喜欢的其中罗斯林说到的一句话是 “分析资料才是最重要的,这是统计学的核心”。回顾数据分析工作中,数据是基础,但不要沉迷于数据,要用有目的地的分析数据,找到数据背后的规律和信息,从而影响业务工作,产生价值。
02 可视化让统计变成故事
这部片子里好展示了统计学在人口、安全、卫生、健康、机器翻译、天文、自然界的变化、甚至情感等众多领域的应用。让我印象深刻和有意思是数据可视化领域。将数据背后的信息用故事传达个观众。
可视化的先驱是英国的护士和统计学家南丁格尔,她用玫瑰图,以表达军医院季节性的死亡率,对象是那些不太能理解传统统计报表的公务人员,从而推动医改。
而罗斯林也用了自己的方式来讲述有意思的数字。他自己创立了可视化软件 Trendalyzer,后被谷歌收购。他用的最多的一个可视化作品,散点图的方式描述了各国健康水平(预期寿命)和经济发展(人均GDP)的正相关性,并利用动画演示。
03 可视化实践
为了向大师致敬,我特地用可视化神器POWER BI来复现这一动态效果。
【1】数据导入与清洗:是将数字源导入POWER BI,然后在transform模式下编辑这3个数据(将第一行变成表头-1),还需要剔除国家一列中的空值-2;
【2】数据转换与重命名:由于源数据表格是表头是年份,需要用unpivot的转换成我们正常使用的行记录的形式(选择转换其它列)-3,然后对列名进行重命名。
【3】建立关系:3个数据集直接要进行关联(也就是vlookup匹配),采用间接辅助列的方式,使用国家和年份组合的方式形成唯一列country_year,然后在3个表中建立一对一关系;
【4】可视化预处理:使用散点图组件进行作图,然后注意由于人均gdp的数值很大,需要进行对数转换才能让散点图更明显(新建log10的计算列)
【5】可视化:分别拖入图例,x轴,y轴,以及需要播放的维度 play,大功告成,神奇的动态散点图完成。
所用的数据源请关注公众号‘数据氧气’回复【人口】 即可获取源文件。
纪录片地址:
https://www.youtube.com/playlist?list=PLBE30C2B39FE4BD1C
TED演讲地址:
https://www.ted.com/talks/hans_rosling_the_best_stats_you_ve_ever_seen#t-287142