sklearn 学习：普通机器学习模型利器

2019-03-26 本文已影响0人小小兰哈哈

sklearn的无监督: sklearn.cluster ->Kmeans(k-means) （AgglomerativeClustering）层次聚类

一. sklearn的有监督: lr:sklearn.linear_model 线性模型包内

###penalty：惩罚项：正则；

###dual：bool 实现l2

###solver : str, {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, default: ‘liblinear’.

####算法

###multi_class : str, {‘ovr’, ‘multinomial’, ‘auto’}, default: ‘ovr’

###是否为多分类问题，若slover算法选择是linear，则multimomial不可用。ovr是二进制0-1分类

###random_state 随机混洗，在混洗数据时用。

二. 源码阅读:logisticregreesion实现函数:

sklearn/linear_model/logistic.py里面的logistic_regression_path函数:

logsiticregression的loss实现：

lositicregresson的loss实现调用的是svm包内部封装的loss计算方法，不过默认参数不同。lr的loss函数是极大似然，计算方法是

与交叉熵类似，而svm的loss计算方法是距离。

二. sklearn的监督: gbdt: GradientBoostingClassifier

首先：gbdt在sklearn的ensemble中. 相关参数:

####1) n_estimators: 也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。默认是100。在实际调参的过程中，我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。

####2) learning_rate: 即每个弱学习器的权重缩减系数ν，也称作步长，在原理篇的正则化章节我们也讲到了，加上了正则化项，我们的强学习器的迭代公式为fk(x)=fk−1(x)+νhk(x)。ν的取值范围为0<ν≤1。对于同样的训练集拟合效果，较小的ν意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。所以这两个参数n_estimators和learning_rate要一起调参。一般来说，可以从一个小一点的ν开始调参，默认是1。

####3) subsample: 即我们在原理篇的正则化章节讲到的子采样，取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间，默认是1.0，即不使用子采样。

####4) init: 即我们的初始化的时候的弱学习器，拟合对应原理篇里面的f0(x)，如果不输入，则用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在我们对数据有先验知识，或者之前做过一些拟合的时候，如果没有的话就不用管这个参数了。

####5) loss: 即我们GBDT算法中的损失函数。分类模型和回归模型的损失函数是不一样的。对于分类模型，有对数似然损失函数"deviance"和指数损失函数"exponential"两者输入选择。默认是对数似然损失函数"deviance"。在原理篇中对这些分类损失函数有详细的介绍。一般来说，推荐使用默认的"deviance"。它对二元分离和多元分类各自都有比较好的优化。而指数损失函数等于把我们带到了Adaboost算法。对于回归模型，有均方差"ls", 绝对损失"lad", Huber损失"huber"和分位数损失“quantile”。默认是均方差"ls"。一般来说，如果数据的噪音点不多，用默认的均方差"ls"比较好。如果是噪音点较多，则推荐用抗噪音的损失函数"huber"。而如果我们需要对训练集进行分段预测的时候，则采用“quantile”。

####6) alpha：这个参数只有GradientBoostingRegressor有，当我们使用Huber损失"huber"和分位数损失“quantile”时，需要指定分位数的值。默认是0.9，如果噪音点较多，可以适当降低这个分位数的值。

gbdt原理：

1.首先，gbdt是有k个树的决策树，object的计算方法是k个f（x）的叠加。

2.gbdt的设计亮点是使用了泰勒级数展开式。xgboost也采用了泰勒级数展开式，并用了二阶导数，而传统的gbdt是

一阶导数，并没有用到二阶导数。

3.最终推导到的分裂收益如下:

sklearn 学习：普通机器学习模型利器

猜你喜欢

热点阅读