机器学习java干货程序员

2017校招数据分析岗笔试/面试知识点

2016-09-19  本文已影响9188人  是蓝先生

2017校招正在火热的进行,后面会不断更新涉及到的相关知识点。

尽管听说今年几个大互联网公司招的人超少,但好像哪一年都说是就业困难,能够进去当然最好,不能进去是不是应该也抱着好的期望去找自己满意的呢?

最近笔试了很多家公司校招的数据分析和数据挖掘岗位,今天(9.18r)晚上做完唯品会的笔试题,才忽然意识过来,不管题目简单也好、难也好,都要去切切实实的去掌握。毕竟不能永远眼高手低,否则最后吃亏的一定是自己。

有监督就是给的样本都有标签,分类的训练样本必须有标签,所以分类算法都是有监督算法。
监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据,提高泛化能力。

#1.朴素贝叶斯
    1)基础思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此分类项属于哪个类别。
    2)优点: 
    可以和决策树、神经网络分类算法相媲美,能运用于大型数据库中。
    方法简单,分类准确率高,速度快,所需估计的参数少,对于缺失数据不敏感。
    3)缺点: 
    假设一个属性对定类的影响独立于其他的属性值,这往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。
    需要知道先验概率。


#2.决策树
    1)基础思想:决策树是一种简单但广泛使用的分类器,它通过训练数据构建决策树,对未知的数据进行分类。决策树的每个内部节点表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个叶结点存放着一个类标号。 

    在决策树算法中,ID3基于**信息增益**作为属性选择的度量,C4.5基于**信息增益比**作为属性选择的度量,CART基于**基尼指数**作为属性选择的度量。

    2)优点 :
    不需要任何领域知识或参数假设。
    适合高维数据。
    简单易于理解。
    短时间内处理大量数据,得到可行且效果较好的结果。
    3)缺点: 
    对于各类别样本数量不一致数据,信息增益偏向于那些具有更多数值的特征。
    易于过拟合。
    忽略属性之间的相关性。

#3.支持向量机
    1)基础思想:支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。

    2)优点 :
    可以解决小样本下机器学习的问题。
    提高泛化性能。
    可以解决**文本分类、文字识别、图像分类**等方面仍受欢迎。
    避免神经网络结构选择和局部极小的问题。
    3)缺点:
    缺失数据敏感。
    内存消耗大,难以解释。

#4.K近邻
    1)基础思想:通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的K个训练样例,K个样品中哪个类别的训练样例占多数,则待分类样品就属于哪个类别。
    2)优点 :
    适用于样本容量比较大的分类问题
    3)缺点: 
    计算量太大
    对于样本量较小的分类问题,会产生误分。

#5.逻辑回归(LR)
    1)基础思想:回归模型中,y是一个定型变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率。
    2)优点 :
    速度快,**适合二分类问题。**
    简单易于理解,直接看到各个特征的权重。
    能容易地更新模型吸收新的数据。
    3)缺点: 
    对数据和场景的适应能力有局限,不如决策树算法适应性那么强

4)AUC值:AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。

5)**如何避免过拟合?**

过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增大。其原因一般是模型过于复杂,过分得去拟合数据的噪声和outliers。
常见的解决办法是正则化是:增大数据集,正则化

正则化方法是指在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。规则化项的引入,在训练(最小化cost)的过程中,当某一维的特征所对应的权重过大时,而此时模型的预测和真实数据之间距离很小,通过规则化项就可以使整体的cost取较大的值,从而在训练的过程中避免了去选择那些某一维(或几维)特征的权重过大的情况,即过分依赖某一维(或几维)的特征。
L1正则与L2正则区别:
L1:计算绝对值之和,用以产生稀疏性(使参数矩阵中大部分元素变为0),因为它是L0范式的一个最优凸近似,容易优化求解;
L2:计算平方和再开根号,L2范数更多是防止过拟合,并且让优化求解变得稳定很快速;
所以优先使用L2 norm是比较好的选择。

3.png Paste_Image.png
上一篇下一篇

猜你喜欢

热点阅读