常见算法思想

2019-05-06  本文已影响0人  李涛AT北京

逻辑回归的思想

注:

决策树的思想

注:

* ID3没有考虑连续特征。
* ID3采用信息增益大的特征优先建立决策树的节点。
* ID3算法对于缺失值的情况没有做考虑
*  没有考虑过拟合的问题

注:

注:

* 熵越小,随机变量的不确定性越小,样本集的纯度越高。
* 基尼系数越小,随机变量的不确定性越小,样本集的纯度越高。
* 一个使用信息增益(比)越大越好,另一个是基尼系数(最小方差)越小越好。

注:

CART分类与回归的区别

如何后剪枝

注:

* 显著性程度(卡方值)。
* K^2越大,则H1的置信概率越大, X和Y的相关性越强。

注:

### 决策树的优缺点
* 不需要提前归一化,处理缺失值
* 既可以处理连续值,也可以处理缺失值。
* 为什么说决策树,对于异常点的容错能力好,健壮性高。
* 解释性高
* 决策树算法非常容易过拟合

KNN

朴素贝叶斯

朴素贝叶斯和其他绝大多数的分类算法都不同。

为什么属性独立性假设在实际情况中很难成立,但朴素贝叶斯仍能取得较好的效果

什么是朴素贝叶斯中的零概率问题?如何解决?(拉普拉斯平滑)

朴素贝叶斯中概率计算的下溢问题如何解决

朴素贝叶斯分类器对异常值敏感吗?

朴素贝叶斯算法对缺失值敏感吗

朴素贝叶斯算法中使用拉普拉斯平滑,拉普拉斯因子的大小如何确定

为什么说朴素贝叶斯是高偏差低方差

简单模型与复杂模型的偏差与方差

* 简单的模型进行预测,会得到低方差,高偏差,通常会出现欠拟合。
* 复杂的模型进行预测,会得到高方差,低偏差,通常出现过拟合。
* 损失函数=偏差^2+方差+固有噪音。

高度相关的特征对朴素贝叶斯有什么影响

优缺点

* 对缺失数据不敏感,对异常值也不太敏感。
* 能够很容易处理多分类任务。
* 要求各个属性独立。

集成学习

随机森林为什么不容易过拟合

随机森林算法训练时主要需要调整哪些参数

随机森林为什么不能用全样本去训练m颗决策树

随机森林算法的优缺点

优点:

缺点:

Adaboost

Adaboost原理

优缺点

* Adaboost作为分类器时,分类精度很高。
* 不容易发生过拟合
* 对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。

GBDT

思想

SVM

思想

聚类

DBSCAN 的优缺点

* 可以对任意形状的稠密数据集进行聚类,相对的,K-Means之类的聚类算法一般只适用于凸数据集。
* 可以在聚类的同时发现异常点,对数据集中的异常点不敏感。
* 不用输入K 值

PCA

上一篇下一篇

猜你喜欢

热点阅读