Udacity MLND Project2 Find_donor
3天时间忙里偷闲,在项目导师的督促下终于将 Project2 完成了,值得庆幸的是 review 一次性通过。

通过项目的学习,着实有不少收获,按照整个项目的进展流程总结如下:
Data Exploration
拿到数据第一步还是先做数据探索,对数据分布有一个整体把握,观察是否存在数据倾斜等问题。在这里数据倾斜是指数据特征大多数分布在单点周围,但也有部分数据分布在极大或极小值的附近,这种现象会极大降低学习器的学习效率(可以想象比如用Logistics回归去建模这种数据,权重w的学习过程必然遭到强烈zig-zag形的摆动,因此学习受到影响)。解决这一问题的方法是采用 logarithmic transformation 变化将特征维度进行指数级的缩放。
通过可视化方法(项目提供的现成的模块vs.distribution,直接捕捉并可视化出分布倾斜的数据),可以发现 capital-gain 和 capital-loss 特征确实存在严重的分布倾斜现象:


Naive Estimator
Naive Estimator 概念就是不利用特征信息,强行将所有数据判别为我们的目标类别。可以知道,该分类器必然将所有目标数据“蒙到”。因此Naive分类器的 Recall 是 1,在Recall=1的前提下,accuracy=precision。
Data Preprocessing
数据预处理阶段,主要填补缺失数据、针对类型数据进行哑变量化。
这里我用到了列表推导式获取所有的类型数据,然后用pd.get_dummies方法,简单高效:
pd.get_dummies方法有很多参数可以使用,暂时还没搞精通,只能现学现卖,解决以上燃眉之急。
接下来是将预测目标由字符串类型映射为0、1数值类型,用到了series类型的map方法和lamda表达式(lamda表达式被reviewer夸赞了:D):
特地弄清了map、apply、applymap三个方法的主要区别:map是series类型的方法,apply、applymap是dataframe的方法,而apply是作用于整个列,例如求列的min(),applymap是作用于整个列中的每个元素。
Shuffle and Split Data
引入随机性,并设置种子为0.
Evaluating Model Performance
在评估标准方面,引入了F_beta指标(0-1之间,越大越好),该指标综合考虑precision和recall,并引入参数beta来做二者的权衡。如下公式:beta越大,越偏重recall,beta越小,越偏重precision。(具体为什么beta能起到这种作用,看了wiki也没搞精通,用到时再说吧)

Model Application
模型预测方面,我选用了三个模型为 Decision Tree, Adaboost, GaussianNB。
之所以算用这三个模型,DT是因为我觉得效果会比较好,Adaboost是因为学了课程以后觉得该ensemble learning的思维很强大,想体验一下效果(事实证明确实优于DT),选GaussianNB并不是因为它适合数据,恰恰是因为它不适合数据,我想验证下该模型具体会表现的多差劲:)。。结果如下:

在这个过程中,受益最大的是,项目提供的代码非常规范,让我对模型对比的实验过程有了一个更规范的编码方式,先编写好train和test的pipeline,然后将不同模型作为learner参数传入,即可一次性展示出不同模型的实验结果(详见review)。
Model Tuning
针对最优的Adaboost方法,继续采用网格搜索寻找最优参数,通过项目我真是了解GridsearchCV方法的强大了,必须得研究透该方法啊,以前调参都是傻不拉几的手动改参数:
Feature Selection
特征选择,首先项目让我根据直觉选取了top5的特征,然后用模型feature_importances_属性选择的top5特征进行对比,结果表明我的直觉分析还不错!注意:feature_importances_属性只有部分学习器有(e.g., adaboost, random forests)。
若只选取top5特征的话,学习性能略有下降,但是若对运行时间要求严格,进行特征选择是很必要的。
这里只给出了运行精度,因为偷懒没有给出运行时间的显示:)。此外这里用到了clone模块,个人猜测是克隆一个学习器的初始架构而不克隆学习结果。
Review 的收获
- python 2.7 的除法默认是floor除法 (python 3.x 则是真正),通过future引入division模块,可以实现便捷的真正除法,若要实现floor除法,只需要使用”\"就好了。

-
Binary encoding is a great choice for cases where the number of categories for a given feature is very high.
-
This map might help to give guidance when choosing an estimator.
-
The two main weaknesses of Naive Bayes are the independence assumption among their features and the zero frequency problem. 贝叶斯方法的两个主要缺点是1)朴素假设 2)0频率问题,该问题可以通过贝塞尔校正改善。
-
AdaBoost is one of the best estimators for this project! If you expand the parameter grid a little more, you can get a score higher than 0.74. Gradient Boosting also performs greatly here! 运气比较好,一下子选的Adaboost是最适合该项目的方法,reviewer也让尝试对learn_rate进行网格搜索,可以达到0.74的scores! 也建议试试梯度boosing,boosting大法好~集成大法是王道!
-
Besides the feature importance, an alternative is to use calculate the significance of each feature using the weights of a Logistic Regression (LR) model. The significance is calculated dividing the coefficients of the LR by their standard errors (also know as Z-score). You can check more details in the Chapter 4.4.2 of The Elements of Statistical Learning. According to the reference, a Z-score higher than 2 is significant at the 5% level. Reviewer也提示可以采用除了特种重要度的其他方法进行特征重要性评估,利用LR模型进行权重评价,该方法目前还没仔细学习!
All in all, Pro2 收获满满。