探索性数据分析
2019-10-17 本文已影响0人
大吉岭猹
参考协和八——说人话的统计学
相关链接:
https://mp.weixin.qq.com/s/uvZJ247st2eHSCO9j7VpPg
1. 探索性数据分析(预处理)
- 在正式地对数据进行严格的统计学检验之前,获取和检查数据基本信息的步骤
- 可以实现的目标
- 发现数据中可能存在的错误和遗漏。
- 掌握数据的基本情况获得进一步分析的灵感。
- 检查我们想要执行的统计检验的假设是否成立。做出初步的判断,排除不适用的统计检验。
- 不同的数据类型
- 离散性数据。本质是一种分类。又可以根据不同的分类之间是否有顺序关系分为有序变量和名义变量。
- 连续性数据。除了常规的可以在数轴的某个范围内连续取值的数据外,有些数据理论上并没有无限多的取值,但由于其可能的取值足够繁多,实际处理时当成连续性数据更加方便。
2. 离散型数据的探索性数据分析
- 算出一个包含所有情况的频数(或频率)表
- 了解比例,检查异常值
- 考虑当前数据是否能够满足我们的需要
3. 连续性数据的探索性数据分析
3.1. 集中趋势和展布
- 集中趋势
- 算术平均数
- 中位数:在存在极端值时或数据分布不对称时,中位数比算术平均值更能反映样本的普遍水平
- 展布(数据的波动或发散程度)
- 方差/标准差:容易被极端值影响
- 四分位点,第一个和第三个之差称为内距
3.2. 箱线图和频率直方图
-
箱线图
箱线图 -
频率直方图
- 样本的整体分布情况更加明确
- 关键在于区间数量的确定,实际应用时一般要通过反复尝试才能获得比较好的选择