第二章 数据

2017-11-23  本文已影响0人  hyfine

数据

围绕4个方面展开数据的讨论:


数据类型

数据对象,数据集是数据对象的集合,数据对象也叫记录、点、向量、模式、事件、案例、样本、观测或实体。

属性也叫变量,特征,字段,特性,维(attribute,variable,feature,field, dimension,characteristics)。

属性类型

数据集类型

数据集的一般特性:维度,dimensionality,数据对象具有的属性数目;稀疏性,sparsity,通常具有非对称属性的数据集大多数数据对象的该属性都是0,非零项占比不到1%。分辨率,不同分辨率下得到的数据性质也不同,所谓分辨率就是数据的尺度基准,描述在时间上、空间上、采集量上对对象观测的程度。

数据集通常分为三类:记录数据、基于图形的数据和有序数据


数据质量

数据质量问题的检测和纠正,叫做数据清理,data cleaning

测量和数据收集中的问题:

应用中的问题,及时数据采集测量是完美,在使用中也会存在一下问题:


数据预处理

包括聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变换。


相似性和相异性度量

很多情况下,一旦出现相似性或相异性,就不再需要原始数据。这种方法可以看作将数据变换到相似性或相异性空间,然后进行分析。

邻近度,proximity,表示相近性或相异性。两个对象之间的邻近度时两个对象对应属性之间的邻近度函数。考虑具有多个属性的对象邻近度的度量。

基本定义

简单属性间的邻近度

具有若干属性的对象之间的邻近度用单个属性的邻近度的组合来定义。故首先考虑单个属性间的邻近度(两个实体对于某单个属性来说他们的邻近距离,是相似还是相异)。

数据对象之间的相异度

数据对象之间的相似度

通常相似度,三角不等式不成立,但对称性和非负性通常成立。

邻近性度量实例

邻近度计算

考虑以下三个问题:

  1. 距离度量的标准化和相关性:采用Mahalanobis距离
  2. 组合异种属性的相似度:属性的类型不同时,总相似度可以定义为所有属性的相似度的平均值(限对称属性)。当数据属性是非对称属性时,可直接忽略该属性对的值都为0的情况。
  3. 使用权值:为不同属性分配不同权值,通常可以固定权值综合为1。
上一篇 下一篇

猜你喜欢

热点阅读