机器学习常见问题

2019-05-26  本文已影响0人  潇萧之炎

1.损失函数

机器学习中损失函数:
线性回归使用的就是最小平方和损失函数、Logistic回归使用的交叉熵损失函数....
深度学习中一般情况下:
回归的应用:最小平方和损失函数,分类的应用:交叉熵损失函数

1.扩展的其它的线性回归算法

多项式线性回归、Lasso、Ridge、Elastic Net

多项式线性回归
因为在线性回归中,是假定特征属性x和目标属性y之间存在的映射关系是线性关系,但是在实际的业务数据上,x和y之间的关系有可能不是属于线性关系的,所以直接使用线性回归来做模型效果就不太好。解决方案:多项式线性回归。
可以考虑先将低维空间上的数据映射到高维空间中,让样本数据变的更加的离散,从而让数据变成线性数据,然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式:多项式扩展+线性回归)

  1. 欠拟合
    问题描述:模型没有提取出训练数据集上的数据特性,从而导致训练出来的模型在训练数据集上的效果都不佳。

产生的原因:

模型的学习能力太弱
数据集不适合当前模型
数据集中的样本数目太少
解决方案:

换一种强学习能力的模型
使用集成学习的思想来训练模型
进行数据的特征工程,将数据变化为适合当前模型的形式
增加数据的特征属性或者增加数据的样本量
eg: 如何使用线性模型对非线性的数据做一个训练???

多项式线性回归:可以考虑先将低维空间上的数据映射到高维空间中,让样本数据变的更加的离散,从而让数据变成线性数据,然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式:多项式扩展+线性回归)

  1. 过拟合
    问题描述:模型从训练数据中学习了太多的训练数据特征信息,有可能将一些噪音的异常数据特征也学到了,从而导致模型在测试数据或者生产数据上效果不佳,但是在训练数据集上效果不错。

产生的原因:

模型的学习能力太强
数据集中的样本数目太少
数据中的噪音异常样本比较多
解决方案

限制模型的学习能力(加入正则化项/加入惩罚项)

L1 norm

在线性回归中,也就是Lasso算法;比较容易导致模型参数稀疏化,比较适合特征选择
L2 norm

在线性回归中,也就是Ridge算法;算法效果比较稳定
更改一下模型超参数,降低一下学习能力

更改模型,使用学习能力弱一点的模型

使用集成算法

增加样本数据量

删除一些无用的特征属性(降低一些噪音特征属性的影响),同时增加一些有效特征属性

上一篇下一篇

猜你喜欢

热点阅读