数据挖掘

2018-10-24 本文已影响6人清水包哟

流程

商业理解

对现行商业问题的剖析，根据网络数据，文档等对商业问题的一个初步理解，为数据挖掘提供方向。

比如对旧有商业模型的理解，对现行趋势的分析等。
数据理解

对现有数据的初步分析，使用统计，探测等方法对现有数据有一个大致上的了解，为下一步骤做准备。

比如根据统计结果查看属性的可用性与分布情况。
数据准备

对现有数据采取过滤无效数据、转换数据值、生成新属性、异常处理等操作来产生出可用于数据挖掘模型建立的数据。

具体流程：
- 清洗数据：处理数据中缺失和无效值，
- 构建数据：根据已有数据，构建更适合与数据挖掘的新数据字段，
- 选择数据：分析与过滤掉与商业问题不相关的数据字段，
- 格式化数据：根据算法不同改变数据形式
建立模型

将数据分成训练集与检验集，使用训练集建立模型，使用检验集检验模型得出结果

模型训练算法

聚类算法K-means

顾名思义，这个算法是与K相关的一个方法，事实也是如此。

对于一个大的集群，该方法通过对以下三步的不停迭代得出结果：

确定K值，K值表示需要将这个大的集群分成多少个小的簇（聚类）。然后虚拟K个中心位于集群坐标系内。
计算集群坐标系内所有点与K个中心点的位置，将距离中心点最近的点划归一簇。
根据每一簇的所有点计算这一簇的重心，将其作新的K个中心点重复这一过程。

为何要迭代

经过证明，算法是必然收敛的。意思也就是说，在N次迭代后，K个中心点都趋于稳定，不会发生大的变动。

缺点

不适合在坐标系中呈现形状怪异的集群，比如月亮型此类的非凸形状的聚类
不适合有属性参数值间差异过大（连续值之间跨度过大）的集群

适用范围

小规模的球形或圆形数据
高纬度数据（属性多），纬度越高聚类效果越好

上一篇下一篇

猜你喜欢

热点阅读