数据挖掘算法及软件使用

2019-02-20 本文已影响2人小纠结在简书

通过数据挖掘可以从大量有序或者杂乱无章的数据中发现潜在的规律，甚至通过训练学习还能通过已知的数据预测未来的发展变化。

挖掘算法

Bayes(常用)

贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

贝叶斯公式

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯（Naïve Bayes，NB）分类算法可以与决策树和神经网络分类算法想媲美，该算法能运用到大型数据库中，而且方法简单、分类准准确率高、速度快。

Clustering(常用)

聚类算法，即聚类分析，又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。

聚类分析简称聚类（clustering），是一个把数据集划分成子集的过程，每一个子集是一个簇（cluster），使得簇中的样本彼此相似，但与其他簇中的样本不相似。

聚类分析不需要事先知道样本的类别，甚至不用知道类别个数，因此它是一种无监督的学习算法，一般用于数据探索，比如群组发现和离群点检测，还可以作为其他算法的预处理步骤

聚类过程示意图

聚类过程示意图

常见聚类算法

K-Means(K均值)聚类
均值漂移聚类
基于密度的聚类方法(DBSCAN)
用高斯混合模型（GMM）的最大期望（EM）聚类
凝聚层次聚类
图团体检测(Graph Community Detection)

K-means算法

K-means算法是一种著名的并且常用的聚类方法。K-means以 k 为参数，把 n 个对象分为 k 个簇（cluster），以使簇内具有较高的相似度，而簇间的相似度较低。相似度的计算是根据一个簇中对象的平均值（被看作簇的重心）来进行的。

K-means 算法是随机地选择 k 个对象，每个对象初始地代表了一个簇的平均值或中心，根据其与各个簇中心的距离，对剩余的每个对象赋给最近的簇，然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。

Rule Induction

Neural Network(常用)

神经网络就是一组相互连接的输入输出单元，这些单元之间的每个连接都关联一个权重。在网络学习阶段，网络通过通过调整权重来实现输入样本与其相应（正确）类别的对应。

由于神经网络学习主要是针对其中的连接权重进行的，因此神经网络的学习有时也称为连接学习。

神经网络的优点就是对噪声数据有较好的适应能力，并且对未知数据也具有较好的预测分类能力。

Decision Tree(常用)

决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

Decision Tree Ensemble

Misc Classifiers

Ensemble Learning

Item Sets / Association Rules(常用)

关联规则挖掘，关键规则模式属于描述型模式，发现关联规则的算法属于无监督学习方法。

考察一些涉及许多物品的事务：
事务1 中出现了物品甲，事务 2 中出现了物品乙，事务 3 中则同时出现了物品甲和乙。那么，物品甲和乙在事务中的出现相互之间是否有规律可循呢？

Linear/Polynomial Regression(常用)

回归分析（regression analysis）是确定两种或两种以上变量相互依赖的定量关系的一种统计方法。

回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的关系。例如，司机的鲁莽驾驶与道路交通事故数量之间的关系，最好的研究方法就是回归。

Polynomial Regression
多项式回归

Linear Regression
线性回归

Logistic Regression(常用)

MDS

PCA

PMML

SVM

Feature Selection

Scoring(常用)

排序

数据挖掘软件 KNIME

这里主要介绍的是开源的数据挖掘软件KNIME。

KNIME是一个开源的数据集成、数据处理、数据分析和数据勘探平台。

KNIME采用的是类似数据流（data flow）的方式来建立分析挖掘流程。挖掘流程由一系列功能节点为（node）组成，每个节点为有输入/输出端口（port），用于接收数据或模型、导出结果。KNIME中每个节点都带有交通信号灯，用于指示节点的状态。

KNIME的特色功能HiLite允许用户在节点结果中标记感兴趣的记录，并进一步展开后续探索。

基本工作流程

读取要分析的数据；
对其中的一些数据进行转换；
分析出其中的规律；
部署到平台；

节点状态

红灯，未连接、未配置、缺乏输入数据时为红灯；
黄灯，准备执行为黄灯；
绿灯，执行完毕后为绿灯；