智能创意坊程序员

机器学习算法优缺点与适用类型(机器学习实战-学习笔记)

2019-04-15  本文已影响4人  虽不中不远矣

一、分类

1、k-临近算法(kNN)

优点:精度高、对异常值不明感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

适用数据范围:数据型和标称型

2、决策树

优点:计算复杂度不高、输出结果易理解、对中间值的缺失不敏感、可处理不相关特征数据

缺点:可能会产生过度匹配问题(需要剪枝)

适用数据范围:数值型和标称型

3、朴素贝叶斯

优点:对数据较少的情况下任然有效,可以处理多类别问题

缺点:对于输入数据的准备方式较为敏感

适用数据范围:标称型数据

4、logistic 回归

优点:计算代价不高,易于理解实现

缺点:容易大拟合,分类精度可能不高

适用数据类型:数值型和标称型

5、支持向量机

优点:泛化错误率低,计算开销不大,结果易于理解

缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅仅适用于处理二值问题

适用数据类型:数值型和标称型

6、AdaBoost元算法

优点:泛化错误率低,易编码,可应用在大部分分类器上,无参数调整

缺点:对离群点不敏感

适用数据类型:数值型和标称型

二、回归预测数值型数据

1、线性回归

优点:结果易于理解,计算上不复杂

缺点:对非线性的数据拟合不好

适用数据类型:数值型和标称型

2、树回归

优点:可对复杂和非线性数据建模

缺点:结果不易于理解

适用数据类型:数值型和标称型

三、无监督学习(聚类)

1、k-均值聚类算法

优点:容易实现

缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢

适用数据类型:数值型

2、Apriori算法

优点:易编码实现

缺点:在大数据上可能较慢

适用数据类型:数值型和标称型

3、FP-growth算法

优点:一般快于Apriori算法

缺点:实现比较困难,在某些数据集上性能会下降

适用数据类型:标称型

四、其它工具

1、主成分分析(PCA)

优点:降低数据复杂性,识别最重要的多个特征

缺点:不一定需要,可能损失有用信息

适用数据类型:数据型

2、奇异值分解(SVD)

优点:简化数据,去除噪声,提高算法效果

缺点:数据转换可能难以理解

适用数据类型:数据型

3、MapReduce

优点:可在短时间完成大量工作

缺点:算法必须经过重写,需要对系统工程有一定了解

适用数据类型:数值型和标称型

上一篇下一篇

猜你喜欢

热点阅读