机器学习之模型理论的面试问题2018-6-28

2018-06-28  本文已影响0人  静静1000

1、线形版别和非线性判别的区别?哪个判别比较好?

1)、这个区别是根据线形映射,即y与x之间的关系为标准分的类;逻辑回归和SVM是线形判别器,决策树是非线形分类器

        不同的问题不同的结果

2、决策树可以处理连续性变量吗?

ID3算法:

https://blog.csdn.net/fly_time2012/article/details/70210725

这个网址介绍的很详细,我个人认为他不处理连续性变量原因很简单,仅从公式上看特征值可能性多不一定是最优

另一个原因提出这个算法的作者没有想到将其划为二分类去处理,直接套公式可不就出现问题1

C4.5算法

https://blog.csdn.net/lemon_tree12138/article/details/51840361

这个网址介绍很详细,公式作了改进差不多解决特征值可能性多不一定是最优的问题,随便提出连续特征处理方法

但是上述两个网址只是建树,缺少剪枝的过程,建树好理解,后剪枝反而不好理解

3、决策树与逻辑回归的比较

逻辑回归的优点:

1.逻辑回归对数据整体结构的分析

2、线上使用简单

3、逻辑回归擅长分析线性关系,线性关系在实践中有很多优点:简洁,易理解,可以在一定程度上防止对数据的过度拟合。但是很多非线性关系完全可以用线性关系作为近似,而且效果很好。

逻辑回归的缺点:

1、逻辑回归对极值比较敏感,容易受极端值的影响

2、逻辑回归 建模数据量不能太少,目标变量中每个类别所对应的样本数量要足够充分,才能支持建模

3、排除共线性问题(自变量间相关性很大)

4、逻辑回归不能处理缺失值,所以之前应对缺失值进行适当处理。

决策树的优点:

1、决策树对局部结构的分析,每一维的特征对y可以解释

2、虽然对付非线性关系是决策树的强项

3、可以处理处理缺失值

4、对异常值不敏感

决策树缺点:

1、容易过拟合

2、决策树对线性关系的把握较差

今天下介绍到这里

上一篇下一篇

猜你喜欢

热点阅读