智能创意坊程序员

机器学习算法优缺点与适用类型（机器学习实战-学习笔记）

2019-04-15 本文已影响4人虽不中不远矣

一、分类

1、k-临近算法（kNN）

优点：精度高、对异常值不明感、无数据输入假定

缺点：计算复杂度高、空间复杂度高

适用数据范围：数据型和标称型

2、决策树

优点：计算复杂度不高、输出结果易理解、对中间值的缺失不敏感、可处理不相关特征数据

缺点：可能会产生过度匹配问题（需要剪枝）

适用数据范围：数值型和标称型

3、朴素贝叶斯

优点：对数据较少的情况下任然有效，可以处理多类别问题

缺点：对于输入数据的准备方式较为敏感

适用数据范围：标称型数据

4、logistic 回归

优点：计算代价不高，易于理解实现

缺点：容易大拟合，分类精度可能不高

适用数据类型：数值型和标称型

5、支持向量机

优点：泛化错误率低，计算开销不大，结果易于理解

缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅仅适用于处理二值问题

适用数据类型：数值型和标称型

6、AdaBoost元算法

优点：泛化错误率低，易编码，可应用在大部分分类器上，无参数调整

缺点：对离群点不敏感

适用数据类型：数值型和标称型

二、回归预测数值型数据

1、线性回归

优点：结果易于理解，计算上不复杂

缺点：对非线性的数据拟合不好

适用数据类型：数值型和标称型

2、树回归

优点：可对复杂和非线性数据建模

缺点：结果不易于理解

适用数据类型：数值型和标称型

三、无监督学习（聚类）

1、k-均值聚类算法

优点：容易实现

缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢

适用数据类型：数值型

2、Apriori算法

优点：易编码实现

缺点：在大数据上可能较慢

适用数据类型：数值型和标称型

3、FP-growth算法

优点：一般快于Apriori算法

缺点：实现比较困难，在某些数据集上性能会下降

适用数据类型：标称型

四、其它工具

1、主成分分析（PCA）

优点：降低数据复杂性，识别最重要的多个特征

缺点：不一定需要，可能损失有用信息

适用数据类型：数据型

2、奇异值分解（SVD）

优点：简化数据，去除噪声，提高算法效果

缺点：数据转换可能难以理解

适用数据类型：数据型

3、MapReduce

优点：可在短时间完成大量工作

缺点：算法必须经过重写，需要对系统工程有一定了解

适用数据类型：数值型和标称型

上一篇下一篇

猜你喜欢

热点阅读