调包侠的机器学习神器—pycaret

2020-06-07 本文已影响0人巴拉巴拉_9515

在算法选型的时候经常要把相关算法在数据集训练看一下效果，有时候想有空的时候一定要把这些工作封装在一起，快速调用。

事实证明，只要拖的久，大牛们总会把让人心仪的包封装好。

本次重点推荐调包侠的机器学习神器—pycaret。

pycaret在初始化setup阶段自动完成机器学习必需的数据预处理步骤，例如缺失值插补，分类变量编码，标签编码（将yes或no转换为1或0）和训练、测试集拆分（train-test-split）

from pycaret.classification import setup
# 首先初始化，传入数据集，Class variable为label信息
exp1 = setup(diabetes, target = 'Class variable')

例如diabetes这份数据集是二分类场景，数据结构为(768,9)，无缺失值情况，特征处理后有23个特征，拆分训练集

# 一行代码解决模型比较
from pycaret.classification import compare_models
compare_models()

比较这份数据集使用不同模型的效果

选择最优的算法训练数据集，并进行参数调优

from pycaret.classification import create_model, tune_model
# 模型搭建
adaboost = create_model('ada')
# 参数调优
tuned_adaboost = tune_model('ada')

其他内容懒得写了，总之就是pycaret可以用很少的代码替换原来的数百行代码，简化工作量。

觉得有时间可以看一看源码，看看特征工程、参数调优等方面大牛们是怎么打造的