大数据产品经理的自用干活分类程序员

大数据挖掘3|分类方法

2016-09-16  本文已影响836人  是蓝先生

数据挖掘或者机器学习中很大一部分是解决分类问题

分类可以定义为:

目标函数或规则也称为分类模型(Classification Model),一个模型必须同时具有很好的拟合能力(很好拟合输入样本数据中类标号和属性间关系)和泛化能力(正确预测位置样本的标号)。


一、常用的分类方法介绍

1.朴素贝叶斯
2.决策树

在决策树算法中,ID3基于信息增益作为属性选择的度量,C4.5基于信息增益比作为属性选择的度量,CART基于基尼指数作为属性选择的度量。

3.支持向量机
4.K近邻
5.逻辑回归(LR)
6.神经网络

二、各分类方法使用场合

三、各分类方法效果评价指标

更好的数据往往比更好的算法更重要,提取好的特征也需要很大的功夫。如果你的数据集非常大,那么分类算法的选择可能对最后的分类性能影响并不大(所以可以根据运行速度或者易用性来选择)。

查准率(precision rate)也即精度 和查全率(recall rate)也即真正率
precision rate = TP / (TP + FP)
recall rate = TP / (TP + FN)
一般比较关心的也是这两个指标。


(更多详细的分类方法原理可见
http://blog.csdn.net/china1000/article/details/48597469

上一篇下一篇

猜你喜欢

热点阅读