Coding

数据挖掘

2018-10-24  本文已影响6人  清水包哟

流程

  1. 商业理解

    对现行商业问题的剖析,根据网络数据,文档等对商业问题的一个初步理解,为数据挖掘提供方向。

    比如对旧有商业模型的理解,对现行趋势的分析等。

  2. 数据理解

    对现有数据的初步分析,使用统计,探测等方法对现有数据有一个大致上的了解,为下一步骤做准备。

    比如根据统计结果查看属性的可用性与分布情况。

  3. 数据准备

    对现有数据采取过滤无效数据、转换数据值、生成新属性、异常处理等操作来产生出可用于数据挖掘模型建立的数据。

    具体流程:

    • 清洗数据:处理数据中缺失和无效值,

    • 构建数据:根据已有数据,构建更适合与数据挖掘的新数据字段,

    • 选择数据:分析与过滤掉与商业问题不相关的数据字段,

    • 格式化数据:根据算法不同改变数据形式

  4. 建立模型

    将数据分成训练集与检验集,使用训练集建立模型,使用检验集检验模型得出结果

模型训练算法

聚类算法K-means

顾名思义,这个算法是与K相关的一个方法,事实也是如此。

对于一个大的集群,该方法通过对以下三步的不停迭代得出结果:

  1. 确定K值,K值表示需要将这个大的集群分成多少个小的簇(聚类)。然后虚拟K个中心位于集群坐标系内。
  2. 计算集群坐标系内所有点与K个中心点的位置,将距离中心点最近的点划归一簇。
  3. 根据每一簇的所有点计算这一簇的重心,将其作新的K个中心点重复这一过程。

为何要迭代

经过证明,算法是必然收敛的。意思也就是说,在N次迭代后,K个中心点都趋于稳定,不会发生大的变动。

缺点

适用范围

  1. 小规模的球形或圆形数据
  2. 高纬度数据(属性多),纬度越高聚类效果越好
上一篇下一篇

猜你喜欢

热点阅读