4. 挖掘建模1 分类与预测

2018-03-29 本文已影响0人何大炮

分类与预测

分类：构造一个分类模型，输入样本的属性值，输出对应类别
预测：建立两种或者两种以上变量间相互依赖的函数模型
实现过程：学习（通过样本得到数据模型或者分类模型）->检验后预测

常用分类和预测的算法

回归分析：线性回归，非线性回归，logical 回归（因变量只有0或者1），岭回归（参与建模的自变量之间具有多重共线性），主成分回归
决策树：树状结构，每一个叶节点对应一个类，非叶节点对应一个某个属性的划分。
核心问题：如何在每一步选择适当的属性对样本进行拆分。

决策树算法：
CART算法：非参数分类和回归方法，通过构建，修剪，评估来构建一个二叉树。当终结点是连续变量时，该树为回归树；反之则为分类树。
基尼指数（表示在样本集合中一个随机选中的样本被分错的概率）来选择节点属性，基尼指数越小不确定性越小。

C4.5：算法使用信息增益率来选择节点属性，连续和离散的属性都可以处理（单点逐一离散化，寻找信息增益率最大的分裂点）。
gain_rate(D,A) = gain(D,A)/条件熵(D,A)
弱化因为特征取值多的特征（条件熵越大，该变量的在该条件下不确定性的度量越大），让选择最优特征时更加公平

ID3算法：在数据集中找出最优特征，然后是最优候选值(一般是二分类，多分类让特征值变得敏感)，分类。
信息增益值Gain(D,A)来确定每个节点的最佳分类属性，Gain(D,A)越大表明属性A对于分类提供的信息越大，选择A后对分类的不确定程度越小。减小了树的平均深度。

缺点：倾向于取的高度分支属性（信息增益偏向于那些拥有很多取值的特征），不一定是最优的属性；只能处理离散属性。
Gain(D,A) = 熵(A) - 条件熵(D,A)----在该条件下该变量不确定性的减少程度。
停止分支的条件：树的深度；叶节点的纯度；子节点样本数。

人工神经网络：
人工神经网络算法
BP神经网络
LM神经网络
RBF径向基神经网络

分类预测算法评价

用一组独立的数据集作为测试集来评价预测模型的准确率。
衡量标准：

绝对误差和相对误差
平均绝对误差
均方绝对误差
kappa统计（取在【0，1】之间）
识别准确度，识别精确度，反馈率
ROC曲线

4. 挖掘建模1 分类与预测

分类与预测

常用分类和预测的算法

分类预测算法评价

猜你喜欢

热点阅读