4. 挖掘建模1 分类与预测
分类与预测
分类:构造一个分类模型,输入样本的属性值,输出对应类别
预测:建立两种或者两种以上变量间相互依赖的函数模型
实现过程:学习(通过样本得到数据模型或者分类模型)->检验后预测
常用分类和预测的算法
-
回归分析:线性回归,非线性回归,logical 回归(因变量只有0或者1),岭回归(参与建模的自变量之间具有多重共线性),主成分回归
-
决策树:树状结构,每一个叶节点对应一个类,非叶节点对应一个某个属性的划分。
核心问题:如何在每一步选择适当的属性对样本进行拆分。
决策树算法:
CART算法:非参数分类和回归方法,通过构建,修剪,评估来构建一个二叉树。当终结点是连续变量时,该树为回归树;反之则为分类树。
基尼指数(表示在样本集合中一个随机选中的样本被分错的概率)来选择节点属性,基尼指数越小不确定性越小。
C4.5:算法使用信息增益率来选择节点属性,连续和离散的属性都可以处理(单点逐一离散化,寻找信息增益率最大的分裂点)。
gain_rate(D,A) = gain(D,A)/条件熵(D,A)
弱化因为特征取值多的特征(条件熵越大,该变量的在该条件下不确定性的度量越大),让选择最优特征时更加公平
ID3算法:在数据集中找出最优特征,然后是最优候选值(一般是二分类,多分类让特征值变得敏感),分类。
信息增益值Gain(D,A)来确定每个节点的最佳分类属性,Gain(D,A)越大表明属性A对于分类提供的信息越大,选择A后对分类的不确定程度越小。减小了树的平均深度。
缺点:倾向于取的高度分支属性(信息增益偏向于那些拥有很多取值的特征),不一定是最优的属性;只能处理离散属性。
Gain(D,A) = 熵(A) - 条件熵(D,A)----在该条件下该变量不确定性的减少程度。
停止分支的条件:树的深度;叶节点的纯度;子节点样本数。
- 人工神经网络:
人工神经网络算法
BP神经网络
LM神经网络
RBF径向基神经网络
分类预测算法评价
用一组独立的数据集作为测试集来评价预测模型的准确率。
衡量标准:
- 绝对误差和相对误差
- 平均绝对误差
- 均方绝对误差
- kappa统计(取在【0,1】之间)
- 识别准确度,识别精确度,反馈率
- ROC曲线