认识数据-DataMining
一、数据对象和属性类型
数据集由数据对象组成;数据对象用属性描述。
数据对象:
一个数据对象代表一个数据实体;
又称为:样本、实例、数据点、对象;
如果数据对象存放在数据库中,则称为 数据元组;
就是说,数据库的行对应于数据对象,而列对应于属性;
属性:
是一个数据字段,表示数据对象的一个特征。
在文献中,属性、维(dimension)、特征(feature)、变量(variable)可以互换使用。
维:一般用在数据仓库中;
特征:机器学习文献更倾向于使用此术语;
变量:统计学家更愿意使用此术语;
属性:数据挖掘和数据库的专业人士倾向于使用的术语;
特征向量:用来描述一个给定对象的一组属性;又称属性向量;
属性类型:由该属性可能具有的值的集合决定;
标称属性、二元属性、序数属性、数值属性;
标称属性:nominal attribute /'nɑmɪnl/
标称属性的值是一些符号或事物的名称,每个值代表某种类别、状态、编码;
这些值不必具有有意义的顺序,并且不是定量的,也被称为 枚举(enumeration);
这种属性的均值、中值是没有意义的;
中心趋势度量使用 众数(Mode):该属性最常出现的值;
二元属性:(binary attribute)
是一种只有两个状态的标称属性;1表示出现,0表示不出现;
又称布尔属性,如果两种状态对应 true 和 false的话;
对称二元属性:两种状态具同等价值,且携带相同的权重;例如性别gender。
非对称二元属性:状态的结果不是同等重要;例如:新冠检测:阳性、阴性;
序数属性:ordinal attribute /'ɔrdənl/
其可能的值之间具有有意义的顺序评定,但值之间的差是未知的;
用于记录不能客观度量的主观质量评估,通常用于等级评定;
也可以通过把数值属性的值域划分成有限个顺序类别,把数值属性离散化而得到;
中心趋势度量:众数 和 中位数(有序序列的中间值)表示,不能定义均值;
注:标称属性、序数属性都是定性的,仅描述对象的特征,而不给出实际的大小或数量,不是可测量的值;例如:0表示中杯,1表示大杯,2表示特大杯。(罗永浩:小杯是什么?)
数值属性:numeric attribute /nu'mɛrɪkl/
是定量的,可度量的量,用整数或实数表示;
I、区间标度属性 interval-scaled:用相等的单位尺度度量,区间属性的值有序,允许比较和定量评估值之间的差。例如温度,没有真正的零点,0℃不表示没有温度,不能说10℃比5℃温暖2倍;即不能用比率谈论这些值;
II、比率标度属性 ratio-scaled:是具有固有零点的数值属性;可以说一个值是另一个值的倍数。例如开氏温度、速度、年龄、高度等;
另:机器学习领域的分类算法通常把属性分成:离散的、连续的;
离散属性:具有有限或无限个可数的值;可以用整数 或 不用整数 表示;
连续属性:连续属性一般用浮点变量表示,值是实数;
二、数据的基本统计描述
中心趋势度量:度量数据分布的中部或中心位置;即属性的值大部分落在何处。
均值、中位数、众数、中列数;
数据散布度量:数据如何分散的,识别离群点;
极差、四分位数、四分位数极差、五数概括、盒图、方差、标准差;
基本统计描述可视化:分位数图、分位数-分位数图、直方图、散点图、线图、饼
1、中心趋势度量:
I、均值 mean:数据集『中心』最常用、最有效的数值度量。适用于对称数据集;
加权平均:每个值可以与一个权重Wi相关联,权重反应对应值的意义、重要性或出现的频率。
截尾均值 trimmed mean:丢弃高低极端值后的均值;计算均值前去掉高端和低端的2%;
II、中位数 median:有序数据值的中间值,把数据分为高低两半的值;适用于非对称数据集;
中位数的近似值:当观测的数量很大时,中位数的计算开锁很大,用近似值公式计算;
III、众数 mode:集合中出现最频繁的值。定性定量属性均可有众数;
单峰数据集 unimodal:最高频率对应一个值;
多峰数据集 multimodal:最高频率对应两个或更多值 ;
IV、中列数 midrange:是数据集最大和最小值的平均值;
对称数据分布的单峰数据集,均值、中位值、众数是相同的中心值;
正倾斜分布的数据集,众数出现在小于中位数的值上;
负倾斜分布的数据集,众数出现在大于中位数的值上;
2、度量数据散布:
I、极差 range:最大值 max()与最小值Min()之差;
II、分位数 quantile:把数据分布划分为基本大小相等的连贯集合的数据点;
二分位数:即中位数:把数据划分为高低两半;
四分位数 quartile :是3个数据点,把数据分布划分为4个相等的部分,各四分之一;
百分位数 percentile :把数据分布划分成100个大小相等的连贯集;
四分位数极差 IQR :第一个四分位数Q1和第三个四分位数Q3之间的距离,是中间一半所覆盖的数据范围,是散布的一种简单度量。
III、五数概括 five-number summary、盒图 boxplot、离群点
对于倾斜分布,单个散布数值度量(例IQR)不是很有用;中心度量值不能把数据划分成大小相同的两半;因此用五个数来概括更完整的数据分布形状;
五数概括:Mininum、Q1、Median、Q3、Maxinum;
最小值、四分位数Q1、中位数、四分位数Q3、最大值;
盒图:体现了五数概括;
盒的长度是四分位数极差IQR;
中位数用盒内的线标记;
盒外的两条线(胡须)延伸到最小和最大观测值;如果最高或最低值超过四分位数的1.5倍IQR时,则胡须扩展到1.5xIQR终止,剩下的值个别绘出;
IV、方差和标准差
指出数据分布的散布程度;
低标准差:数据趋向于非常靠近均值;高标准差:数据散布在一个大的值域中。
标准差(standard deviation)σ(西格玛) 是方差 (Variance)σ^2(西格玛平方)的平方根;
一个观测一般不会远离均值超过标准差的倍数,是数据集发散的很好指示器。
3、数据的基本统计描述的图形显示:
这些图形是助于可视化的审视数据,对数据预处理是有用的。
I、分位数图 quantile plot
观察单变量数据分布的简单有效的方法。
显示所有数据:评估总的情况和不寻常的数据;
显示分位数信息,按递增顺序排序的数据,可以基于分位数比较不同的分布;
II、分位数-分位数图 quantile - quantile plot:
III、直方图 histogram
IV、散点图 scatter plot:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一;用于观察 簇和离群点 或 考察相关联系的可能性。正相关、负相关、零相关;
综上所棕:基本数据描述(中心趋势度量、散布度量)和图形统计显示(分位数图、直方图、散点图)提供了数据总体情况的有价值的洞察。有助于识别噪声和离群点,所以对于数据清理特别有用。