大数据人工智能/模式识别/机器学习精华专题玩转大数据

Catboost 一个超级简单实用的boost算法

2019-03-02  本文已影响6人  王同学死磕技术

今天笔者来介绍一个超级简单并且又极其实用的boosting算法包Catboost,据开发者所说这一boosting算法是超越Lightgbm和XGBoost的又一个神器。

catboost 简介

在笔者看来catboost有一下三个的优点:

这里笔者只是简单介绍了一下catboost的优点,至于内部原理的细节部分,感兴趣的同学可以去看看论文原文,原文链接在这里。由俄罗斯大兄弟于2017年发表。

catboost 实战

这里笔者采用的是之前参加一个CTR点击率预估的数据集,首先通过pandas读入数据。

from catboost import CatBoostClassifier
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
data  = pd.read_csv("ctr_train.txt", delimiter="\t")
del data["user_tags"]
data = data.fillna(0)
X_train, X_validation, y_train, y_validation = train_test_split(data.iloc[:,:-1],data.iloc[:,-1],test_size=0.3 , random_state=1234)

这里我们可以观察一下数据的特征列,这里有很多列特征比如广告的宽高是否可以下载是否会跳转等一些特征,而且特征的数据类型各不一样,有数值型(creative_height),布尔型(creative_is_js)等不同类型的特征。

data
下图我们对所有特征做了一个统计,发现整个训练数据集一共有34列,除去标签列,整个数据集一共有33个特征,其中6个为布尔型特征,2个为浮点型特征,18个整型特征,还有8个对象型特征。
data_information
如果按照正常的算法,此时应该将非数值型特征通过各种数据预处理手段,各种编码方式转化为数值型特征。而在catboost中你根本不用费心干这些,你只需要告诉算法,哪些特征属于类别特征,它会自动帮你处理。代码如下所示:
categorical_features_indices = np.where(X_train.dtypes != np.float)[0]
model = CatBoostClassifier(iterations=100, depth=5,cat_features=categorical_features_indices,learning_rate=0.5, loss_function='Logloss',
                            logging_level='Verbose')

最后就是将数据喂给算法,训练走起来。

model.fit(X_train,y_train,eval_set=(X_validation, y_validation),plot=True)

将plot = ture 打开后,catboot包还提供了非常炫酷的训练可视化功能,从下图可以看到我的Logloss正在不停的下降。


training

训练结束后,通过model.feature_importances_属性,我们可以拿到这些特征的重要程度数据,特征的重要性程度可以帮助我们分析出一些有用的信息。

import matplotlib.pyplot as plt 
fea_ = model.feature_importances_
fea_name = model.feature_names_
plt.figure(figsize=(10, 10))
plt.barh(fea_name,fea_,height =0.5)

执行上方代码,我们可以拿到特征重要程度的可视化结构,从下图我们发现campaign_id是用户是否点击这个广告的最关键的影响因子。


feature_importance

结语

至此整个catboot的优点和使用方法都介绍完了,是不是觉得十分简单易用,而且功能强大。深度学习,神经网络减弱了我们对特征工程的依赖,catboost也在朝着这方面努力。所以有时候碰到需要特别多的前期数据处理和特征数值化的任务时,可以尝试用一下catboost,python pip install catboost 即可安装哦。

参考

CatBoost: unbiased boosting with categorical features
https://blog.csdn.net/friyal/article/details/82758532
http://ai.51cto.com/art/201808/582487.htm

上一篇下一篇

猜你喜欢

热点阅读