kaggle之Titanic的score提升

2020-08-11  本文已影响0人  巴拉巴拉_9515

kaggle的经典入门题:titanic存活率预测

记录几个阶段问题

1、花里胡哨一堆操作,准确率没什么体现

很多notebook写的很好,缺失值处理、特征提取、算法选型、超参数调优、...,全篇步骤清晰,理论专业,花里胡哨一堆操作准确率0.8都上不去。

于此同时,只采用sex信息,使用最简单的逻辑回归,预测的准确率就有0.7655了

那些花里胡哨写了一大堆操作的,准确率也没高多少→_→

为什么会有这样的现象呢?

2、特征提取做文章

为了提高准确率,收集各种资料,认为要在特征工程上做文章,一堆乱七八糟的操作后,还是没有突破0.8的关卡,基本都是0.77xxx

3、运行高分代码

kaggle上超高分的代码点进去,发现毫无逻辑可言,都不知道怎么搞出来的

有些高分分享,复制代码本地运行并没有得到所谓的好结果

小结

怎么才能提高准确率呢?
titanic数据集为什么会存在1这种情况呢?

上一篇下一篇

猜你喜欢

热点阅读