数挖——探索数据

2018-04-18  本文已影响23人  EvanForEver

数据探索有助于选择合适的数据预处理和数据分析技术。

一、汇总统计

汇总统计是刻画数据特征的数值,汇总的特征包括频率、位置和散布等
例如:位置 – 均值(mean) 散布 – 标准差(standard deviation)
大部分的汇总统计可以通过顺序访问一次数据计算得到

频率和众数

属性值的频率(frequency)是具有该属性值的对象个数与数据集中所有对象的个数的百分比
属性的众数(mode)是具有最高频率的属性值

频率和众数一般用于分类属性

百分位数

对于有序的数据,百分位数(percentile)更有意义
定义:给定一个序数属性或连续属性 x 和一个0到100之间的整数 p, 第 p 个百分位数 xp是x 的一个值,使得 x 的 p% 的观测值小于xp

求第k个百分位数的方法:
n个数从小到大排序,求(n-1)×k%,整数部分i,小数部分j;
第k个百分位数=(1-j)×第(i+1)个数 + j×第(i+2)个数

位置: 均值和中位数

均值是连续属性值集最常用的位置度量,均值对离群点非常敏感!

截断均值:指定百分数p,丢弃高端和低端各(p/2)%的数据,再计算均值 中位数:

散布: 极差和方差

属性的极差(range)是连续属性最大值与最小值之间的差值(即最大散步)
方差(variance)和标准差(standard deviation)是连续属性值集的最常用的散步度量

但极差和方差对离群点仍然敏感,故常用其他估计

绝对平均偏差 中位数绝对偏差 四分位数极差

二、可视化

可视化需要将数据转换成可视的形式(图形或表格的形式),使得能够借此分析或报告数据的特征和数据对象或属性之间的关系

为什么数据可视化是强大的数据探索技术?
1、人们能够快速分析大量的可视化信息
2、能发现一般的模式和趋势
3、能发现离群点和异常模式

针对单个属性:一维直方图、盒状图
针对多个属性:二维直方图、散布图、矩阵图

鸢尾花属性的散布图阵列 鸢尾花数据集的数据矩阵图
上一篇 下一篇

猜你喜欢

热点阅读