解密大数据机器学习与数据挖掘Python语言与信息数据获取和机器学习

安然项目-文档

2017-12-08  本文已影响63人  彭健平6点30

最终使用[other','from_this_person_to_poi''expenses','exercised_stock_options']这组特征,通过交叉验证StratifiedShuffleSplit和feature_importances_从两个特征数量试到十个特征数量发现4个特征数量表现最好,

新增加bns和poi_messages,bns特征即salary和bonus之和通过这个特征可以避免遗漏salary与bonus之和很大而其中一个值很小的情况,poi_messages及(from_poi_to_this_person/from_messages)通过这个特征可以知道那些人跟poi 邮件交往更多;

综合以上最终选用四个特征的特征集得到

最终使用了决策树算法,还尝试贝叶斯算法,贝叶斯算法Precision和Recall值差距较大,决策树算法Precision和Recall差距较小

优化分类器的性能,使分类器能够更好地拟合数据,不调整参数分类起不能更好的拟合数据;调整的方式在一个参数的范围内循环遍历选择最佳参数。
最终选择的是决策树分类器调整了criterion参数,选择用‘gini’代表基尼系数
max_depth表示决策树最大的深度设置成9 ,如果不调试max_depth数据拟合不太好。

项目用验证方法评估分类器的性能避免过拟合,数据分为训练集和测试集,用交叉验证验证我的分析

参考资料:
Udacity数据分析进阶P5项目
Air DU分享gitHhub项目
安然事件的概括

上一篇 下一篇

猜你喜欢

热点阅读