Udacity MLND Project2 Find_donor

2017-07-14 本文已影响375人 Dorts

3天时间忙里偷闲，在项目导师的督促下终于将 Project2 完成了，值得庆幸的是 review 一次性通过。

image.png

通过项目的学习，着实有不少收获，按照整个项目的进展流程总结如下：

Data Exploration

拿到数据第一步还是先做数据探索，对数据分布有一个整体把握，观察是否存在数据倾斜等问题。在这里数据倾斜是指数据特征大多数分布在单点周围，但也有部分数据分布在极大或极小值的附近，这种现象会极大降低学习器的学习效率（可以想象比如用Logistics回归去建模这种数据，权重w的学习过程必然遭到强烈zig-zag形的摆动，因此学习受到影响）。解决这一问题的方法是采用 logarithmic transformation 变化将特征维度进行指数级的缩放。

通过可视化方法（项目提供的现成的模块vs.distribution，直接捕捉并可视化出分布倾斜的数据），可以发现 capital-gain 和 capital-loss 特征确实存在严重的分布倾斜现象：

image.png

Naive Estimator

Naive Estimator 概念就是不利用特征信息，强行将所有数据判别为我们的目标类别。可以知道，该分类器必然将所有目标数据“蒙到”。因此Naive分类器的 Recall 是 1，在Recall=1的前提下，accuracy=precision。

Data Preprocessing

数据预处理阶段，主要填补缺失数据、针对类型数据进行哑变量化。
这里我用到了列表推导式获取所有的类型数据，然后用pd.get_dummies方法，简单高效：

pd.get_dummies方法有很多参数可以使用，暂时还没搞精通，只能现学现卖，解决以上燃眉之急。

接下来是将预测目标由字符串类型映射为0、1数值类型，用到了series类型的map方法和lamda表达式（lamda表达式被reviewer夸赞了：D）：

特地弄清了map、apply、applymap三个方法的主要区别：map是series类型的方法，apply、applymap是dataframe的方法，而apply是作用于整个列，例如求列的min()，applymap是作用于整个列中的每个元素。

Shuffle and Split Data

引入随机性，并设置种子为0.

Evaluating Model Performance

在评估标准方面，引入了F_beta指标（0-1之间，越大越好），该指标综合考虑precision和recall，并引入参数beta来做二者的权衡。如下公式：beta越大，越偏重recall，beta越小，越偏重precision。（具体为什么beta能起到这种作用，看了wiki也没搞精通，用到时再说吧）

image.png

Model Application

模型预测方面，我选用了三个模型为 Decision Tree, Adaboost, GaussianNB。
之所以算用这三个模型，DT是因为我觉得效果会比较好，Adaboost是因为学了课程以后觉得该ensemble learning的思维很强大，想体验一下效果（事实证明确实优于DT),选GaussianNB并不是因为它适合数据，恰恰是因为它不适合数据，我想验证下该模型具体会表现的多差劲：）。。结果如下：

image.png

在这个过程中，受益最大的是，项目提供的代码非常规范，让我对模型对比的实验过程有了一个更规范的编码方式，先编写好train和test的pipeline，然后将不同模型作为learner参数传入，即可一次性展示出不同模型的实验结果（详见review）。

Model Tuning

针对最优的Adaboost方法,继续采用网格搜索寻找最优参数，通过项目我真是了解GridsearchCV方法的强大了，必须得研究透该方法啊，以前调参都是傻不拉几的手动改参数：

Feature Selection

特征选择，首先项目让我根据直觉选取了top5的特征，然后用模型feature_importances_属性选择的top5特征进行对比，结果表明我的直觉分析还不错！注意：feature_importances_属性只有部分学习器有（e.g., adaboost, random forests）。

若只选取top5特征的话，学习性能略有下降，但是若对运行时间要求严格，进行特征选择是很必要的。

这里只给出了运行精度，因为偷懒没有给出运行时间的显示：）。此外这里用到了clone模块，个人猜测是克隆一个学习器的初始架构而不克隆学习结果。

Review 的收获

python 2.7 的除法默认是floor除法 (python 3.x 则是真正)，通过future引入division模块，可以实现便捷的真正除法，若要实现floor除法，只需要使用”\"就好了。

image.png

Binary encoding is a great choice for cases where the number of categories for a given feature is very high.
This map might help to give guidance when choosing an estimator.
The two main weaknesses of Naive Bayes are the independence assumption among their features and the zero frequency problem. 贝叶斯方法的两个主要缺点是1）朴素假设 2）0频率问题，该问题可以通过贝塞尔校正改善。
AdaBoost is one of the best estimators for this project! If you expand the parameter grid a little more, you can get a score higher than 0.74. Gradient Boosting also performs greatly here! 运气比较好，一下子选的Adaboost是最适合该项目的方法，reviewer也让尝试对learn_rate进行网格搜索，可以达到0.74的scores! 也建议试试梯度boosing，boosting大法好~集成大法是王道！
Besides the feature importance, an alternative is to use calculate the significance of each feature using the weights of a Logistic Regression (LR) model. The significance is calculated dividing the coefficients of the LR by their standard errors (also know as Z-score). You can check more details in the Chapter 4.4.2 of The Elements of Statistical Learning. According to the reference, a Z-score higher than 2 is significant at the 5% level. Reviewer也提示可以采用除了特种重要度的其他方法进行特征重要性评估，利用LR模型进行权重评价，该方法目前还没仔细学习！

All in all, Pro2 收获满满。

Udacity MLND Project2 Find_donor

Data Exploration

Naive Estimator

Data Preprocessing

Shuffle and Split Data

Evaluating Model Performance

Model Application

Model Tuning

Feature Selection

Review 的收获

猜你喜欢

热点阅读