《商务与经济统计》笔记(二)
描述统计学2:表格法和图形法
关键术语
数据可视化(data visualization):用于描述汇总和表述一个数据集信息的图形显示的效用的术语。
频数分布(frequency distribution):一种数据的表格汇总方法,表示在几个互不重叠组别中,每一组数据值的个数(频数)
相对频数分布(relative frequency distribution):一种数据的表格汇总方法,表示在几个互不重叠组别中,每一组数据值个数的分数或所占比例。
百分数频数分布(percent frequency distribution):一种数据的表格汇总方法,表示在几个互不重叠组别中,每一组数据值的个数所占的百分数。
条形图(bar graph):一种图形方法,用来描述已被汇总成频数分布、相对频数分布或百分数频数分布的分类型数据。
饼形图(pie graph):一种汇总数据的图形,该方法的依据是把一个圆细分为若干个扇形,使得每一组的相对频数与一个扇形相对应。
组中值(class midpoint):下组限和上组限的中间值。
打点图(dot plot):用横轴上每个数值上方的点的个数来汇总数据的一种图形方法。
直方图(histogram):一种描述数量型数据的频数分布、相对频数分布或百分数频数分布的图形方法,组宽放置在横轴上,频数、相对频数或百分数频数放置在纵轴上。
累积频数分布(cumulative frequency distribution):一种数量型数据的表格汇总方式,表示小于或等于每一组上组限的数据值的个数。
累积相对频数分布(cumulative realtive frequency distribution):一种数量型数据的表格汇总方式,表示小于或等于每一组上组限的数据值的分数或比例。
累积百分数频数分布(cumulative percent frequency distribution):一种数量型数据的表格汇总方式,表示小于或等于每一组上组限的数据值的百分数。
茎叶显示(stem-and-leaf display):一种同时用于展示数据的等级排序和分布形态的图形显示。
交叉分组表(crosstabulation):一种对两个变量的数据进行的表格汇总,其中一个变量的组用行来描述,另一个变量的组用列来描述。
辛普森悖论(Simpson's paradox):从两个或两个以上单独的交叉分组表得到的结论可能与将数据综合成一个单一交叉分组表得出的结论截然相反。
散点图(scatter diagram):两个数量变量之间关系的图形表示,其中一个变量用横轴表示,另一个变量用纵轴表示。
趋势线(trendline):表示两个变量之间近似关系的一条直线。
复合条形图(side-by-side bar chart):描绘多个条形图同时显示的一种图形显示方式。
结构条形图(stacked chart):一种条形图,其每一个长条被分解成不同颜色的矩形段,与饼形图类似的方式显示每一组的相对频数。
数据仪表板(data dashboard):一个用易于阅读、了解和解释的方式组织和表示用于监控公司或机构业绩的直观显示集合。
重要公式
相对频数:组频数 / n
近似组宽:(数据最大值 - 数据最小值) / 组数
创建有效的图形显示
给予图形显示一个清晰、简明的标题
使图形显示保持简洁,当能用二维表示时不要用三维表示
每个坐标轴有清楚的标记,并给出测量的单位
如果使用颜色来区分类别,要确保颜色是不同的。
如果使用多种颜色或线型,用图例来标明时,要将图例靠近所表示的数据。
选择图形显示的类型
用于展示数据分布的图形显示
条形图:用于展示分类型数据的频数分布和相对频数分布
饼形图:用于展示分类型数据的相对频数分布和百分数频数分布
打点图:用于展示数值型数据在整个数据范围内的分布
直方图:用于展示数值型数据在一个区间组集合上的频数分布
茎叶显示:用于展示数值型数据的等级顺序和分布形态
用于展示相关关系的图形显示
散点图:用于展示两个数量变量的相关关系
趋势线:用于近似散点图中的数据的相关关系
用于进行比较的图形显示
复合条形图:用于两个变量的比较
结构条形图:用于比较两个分类变量的相对频数和百分数频数