[可视化]解释性数据
一、流程
- 导入数据
- 针对该数据集,提出感兴趣的问题
- 创建数据可视化回答问题
- 确定要向听众展示的结论
- 确定呼吁听众采取的行动
- 以讲故事的方式,分享见解
- 补充:jupyter创建幻灯片,方便展示可视化结果
讲故事
- 结合可视化,先抛出能吸引人的问题
- 重复是个好事情(进一步阐述问题)
让听众理解&投入问题
让问题简单、明确
视觉和听觉的重复强调+引用额外的例证
+更深层的问题
- 突出问题的答案
提供支持问题答案的数据- 呼吁,鼓励行动:基于数据支持
收集反馈与优化
多问问周围朋友、同事的意见
向别人解释图表之前,可以先让他们自己看。然后你可以询问一些问题,看他们从图表中获得的信息跟你试图要传达的是否一致
- 你能从图表中看到什么信息?
- 你对数据有什么疑问吗?
- 你能注意到图表中存在的关系吗?
- 你认为这个演示文稿中包含的最主要信息是什么?
- 图表中有什么不清楚的地方吗?
二、修饰图表
- 选择合适的图表类型
数据类型
有序分类 VS 无序分类
连续数值 VS 离散数值
数据本身的分布
比如,选择小提琴图,箱线图还是调整过的条形图,取决于你有多少数据以及数据分布是不是你关心的重点
如果你有很多数据而且它们的分布是有意义的,你很可能会选择小提琴图;但如果如果你的数据量不多而且数据的分布并没有那么重要,那你会更倾向于使用箱线图或条形图
- 选择合适的编码
坐标轴变量
比如说,如果你有三个数值变量,不能随机将变量用在 x 轴、y 轴或用颜色编码
一般情况下,放在坐标轴上的变量应该相对重要,如果有一个变量是因变量或者结果变量,那么你应该把它放在 y 轴上。
在其他情况下,因变量也可以用颜色来编码,就像从上俯视由其他两个自变量组成的平面一样
- 注意整体考量与诚实设计原则
设置图表参数
尽可能地确保图表中没有很多图表垃圾并且拥有比较高的数据墨水比
比如,在单独的频率条形图上使用颜色可能没必要,但如果在其他图表中也使用相同的颜色表示相应的变量,那么使用颜色也是合理的。同理,你应当避免对不同的变量使用相同的颜色,减少读者的困惑。
遵守诚实设计原则
如果你使用条形图或直方图,那 y 轴最好从 0 开始。
如果你使用了任何坐标轴变换,最好在你的标题,坐标轴标签以及刻度标记上进行说明
- 轴标签以及选择合适的轴刻度
ticks
label
坐标轴一定要包含相应的标签,尽可能提供轴变量的单位
在每个轴上提供至少三个刻度标记,如果数字非常大或非常小,你应该考虑使用缩写(比如,用 ”250k” 取代 “250000”)
- 为非位置编码的变量提供图例
legend
为那些非坐标轴变量提供图例
颜色编码,你可以在图表旁边加上颜色栏
- 为图表提供标题和描述性文本
title
尽可能把重要的信息放在标题里以吸引观众的注意力,而不是简单地把图表中的变量当作标题
其他辅助工具,比如在图表下方或者周围加入一些描述性文本注释,强调重点