data mining 1

2019-05-21  本文已影响0人  SeanC52111

数据挖掘中的数据

属性的不同类别

属性的类别取决于它支持一下哪些类别:

image.png
image.png

离散和连续属性

离散的数据用的最多的方法是二进制矩阵方法。比如文本聚类,单词出现就是1,否则就是0. 数学方法处理二进制矩阵十分方便。但二进制方法又会损失一些信息,比如单词多次重复出现。
一些方法仅仅支持离散数据而并不支持连续数据。比如决策树方法,就无法很好地对连续数据进行处理。为了实现这样的连续型数据,可以简单的进行离散化。

非对称性属性
一个属性比另外一个属性更重要(比如1比0重要)。商场买东西的情况,买东西比没买东西更重要。

数据的表达方式
常用的是矩阵。网络数据可以被图模型所表示。空间数据(spatial data,mobile data)

上一篇 下一篇

猜你喜欢

热点阅读