如何用Alteryx解决Kaggle的Titanic问题

2018-03-07 本文已影响0人 Russell_hao

Q：我想参加kaggle但是我不会写代码？

A：可以的！

kaggle

前言

kaggle现在俨然成为了数据分析师，模型师，数据挖掘工程师，以及数据科学家等职业进入的必备软实力之一了。虽然我说不太清楚前面这四个职业在现在的企业眼中，或者是在HR眼中有着怎样的scope上的不同，但是作为一名初学者我们还是可以使用一些可以可视化的工具来参与这项盛事，或者是练习~ 所以本文将分享下如何用alteryx完成kaggle的titanic生存率预测，以及datarobot + alteryx 如何进行全自动化建模的过程（没有找datarobot公司要到账号，所以这部分是youtube上面别人视频的截图）。

回到开篇的问题上，不是很擅长写代码或者不愿意写代码的人可以参加kaggle么？请使用可视化数据分析/挖掘软件。说到可视化挖掘软件，首先先要致敬一下可视化数据挖掘的老大吧——SAS EM。（不知道Clementine跟SAS EM哪个更早）

上回书介绍了alteryx的基本操作以及abtest系列模块的用法，其实本文本应该是alteryx试用的开篇，但由于abtest这个分析工具看过培训后感受太深了，就换了下顺序，因此呢。

1. 本文有一定的娱乐倾向，所以建模过程不是规范化的，只是为了输出可以参与kaggle的结果。

2. 不会挨个介绍alteryx所有的功能模块，用到哪个就讲哪个。比如比较有特色的spatial工具组，以后也不会介绍，因为地理信息这个模块好像就没有中国的服务，即使有，国内的GPS的解密方法应该他家也没有，所以虽然很好但是不实用。

Alteryx实战：Kaggle的titanic生存率

数据准备

首先要从kaggle网站上下载这个titanic数据~

下载数据

下载页面往下拉就有数据字典与解释，也建议好好看一下了。对于那两个亲属关系，我感觉像是我想的那种关系。另外年龄字段还进行了预测么？但是仍然有大量缺失...后面会讨论怎样处理这个数据。

数据字典

下载好数据后就可以将数据直接拖进alteryx的工作区开始进行预测~

先给出用alteryx导入数据直到预测数据kaggle标准格式数据的整个工作流程：

titanic数据预测workflow

其中导入数据部分需要完成的有：

导入数据

在此说明下Auto Field这个模块的功能是自动识别导入文件中变量的格式。比如csv默认的所有列都是string格式的，但是有了Auto Field就可以自动识别一部分日期和数字格式了。但是比如双精度的数字，还是会因为过长而识别为字符串格式的，所以后面一步仍需要用变量选择工具调整一下部分变量的格式，具体怎样调整因人而异就好。最后将训练与预测数据集union在一起，可以开始下一步特征工程了。

特征工程

先说一下，由于titanic问题出来很久了，所以特征工程的思路百度可以搜到很多，由于上一次是用R来解的这道题，那时候我参考了知乎上一篇文章，所以就形成了定势思维，这次也是大体按照这个思路来解答的。

用R做特征工程参考：https://zhuanlan.zhihu.com/p/25185856

特征工程部分

特征工程部分大体分为四块

1. 对name这个字段进行拆解，提取中间的称谓部分，后期合称为一个称谓属性的特征。因为从称谓中可以分出，先生，小姐，女士，博士，市长，有爵位的人等。小姐和女士差不多就是未婚已婚的关系了。所以这样一个特征可以为预测生存概率提供一点贡献。也许社会地位高的活下来的可能性更大？

2. 总结拆解的称谓，并对少量缺失值进行填补。包括一位没有船票的乘客和两位不知道登陆地的乘客。

3. 对缺失较多的年龄这个字段进行集中处理。由于alteryx中没有提供类似于R里面mice（或者SAS 里面 proc mi）的功能进行多重填补，所以我就使用RF来简单预测了下年龄，后来看上去效果还可以。

4. 有了年龄就再划分两个标签，分别是少年儿童，和母亲两种标签。母亲这个标签年龄限制在16岁以上其实没必要，因为我查了下资料，发现1910年左右吧，西方世界新生儿母亲的年龄在22-24岁，说明还是挺保守的，有一篇paper研究了这个问题。

1. 姓名拆分：RegEx交互式正则工具

RegEx应该是本文重点之一。提供了一种近似于交互式的正则写法。因为对于一名BA而言，处理非结构化的文本属性特征会很麻烦，有时候会放到excel里面分列再替换分列，或者是sql中字符串函数。但是无论那种都没有正则表达式最清晰的描述字符串的pattern，不过我总是记不住正则表达式，该怎么办？OK，RegEx就是这样的工具了。

工具介绍

具体用法

对于titanic这个名称字段，首要提取的是称谓项，就是“Mr, Mrs, Miss”这类的称谓，同时也考虑提取姓氏和名字，但是由于西方人的姓名组成有点复杂了，比如出嫁后随夫姓（东方快车谋杀案里就纠结了很久姓氏问题），我不确定名字后面的括号内部是一个怎样的名字，所以这部分拆分的不是很完善，拆分了后也没有更好的去使用了。所以后面只用了称谓这一块数据。

对于name变量的实现

注：Alteryx在Parse工具栏中还提供对XML数据的解析功能，另外在Developre工具栏中提供了JSON数据的解析工具。

JSON工具

2. 合并字段，填补少量缺失值

2.1 对数据进行重新组合，创造衍生变量

创造衍生变量

2.2 填补少量缺失值

数据中存在两个字段有少量缺失，分别是登船港和船费。对于这类少数缺失值，可以通过数据观察后获得的中位数或者众数进行填补。

对于缺失的登船港口，用tableau简单探索了下票价与地点，仓位之间的关系，选择填补为C港

登船港口

此外可以采用alteryx中的缺失值填补工具imputation

imputation工具

遗憾的是，Alteryx中并没有提供R中的MICE包对缺失值进行多重插补法填补，所以对于年龄这个缺失比较多如果只是简单用imputation工具填补会导致模型的泛化能力不足。所以我考虑用随机森林来简单预测这个缺失值并进行填补。

3. 用随机森林填补年龄缺失

年龄数据填补过程

参数设置

4. 在填补年龄缺失后再创建两个衍生变量

是否儿童与母亲变量

训练模型，预测输出结果

之前的特征工程进行结束，就可以进行模型训练以及预测试题结果了。

建模预测过程

随机森林的结果

结果转存为Kaggle

接下来把结果上传kaggle就可以看到评分了~好像还可以的哈。

kaggle结果

用alteryx边探索边建模的过程还是比较清晰的，在处理数据这个阶段，alteryx这个工具还是有许多可圈可点的地方，另外全程用功能模块进行处理并不需要加入任何内嵌代码模块使整个建模过程更加的直观，当然这里提供的的建模过程并不规范，只是用于完成kaggle的试题。

但是如果觉得这样还是很麻烦的话，是否有更简单的方法呢？

答案是肯定的。

接下来想要show一下最近发现datarobot自动化建模的过程，会发现，真的非常自动化。

但是由于我没有申请到试用账号，所以下面这部分是youtube上视频的截图。

Datarobot + Alteryx 全自动化建模

关于datarobot介绍请见官网：https://www.datarobot.com/

数据输入+模型设置

建模结果

预测输出过程

预测模块参数配置

最后将全自动建模结果上传kaggle, 结果是高于基准线的。而且没有做任何变量处理，特征工程，唯一需要做出决定的是在众多模型中选择一个，视频中选择了AUC最高那个模型。

datarobot自动建模

后记

本文关注的点在可视化建模工具和全自动建模工具两部分。对于可视化建模工具，最大优点在于每个环节都有清晰的脉络相连接，可能这个模型完成后，半年或者一年需要进行修订的时候，我可以很快的衔接上之前的思路。如果是coding类建模（kaggle之前一次得分使用R做的）很可能我就需要再看一下代码以确定某些步骤我有没有做或者是怎么做的。这个问题可能所有的BA都会存在。之前用SAS EM时候感觉唯一的缺点就是做数据准备阶段，不够清晰和自动化。在这里alteryx无疑是提供了一些新的想法。

另外，如datarobot这类全自动建模服务提供商，势必会成为未来的优势，可见即使什么都不处理，datarobot的建模结果依然还可以。假如我将做好特征工程的数据提供给datarobot，进行多种模型的同时建模，效果会怎样？现在真无法估量。总之，这种类型的建模工具势必会为未来BA岗位的工作带来很大的变化。现在被各种新算法搞得焦头烂额的“大龄”BA们也可以更好的回归关注业务的初衷，希望早日普及~

总之本文是一篇偏向于娱乐向的文章，下一篇会回归到商业分析领域，如果有任何错误，也欢迎各位斧正，感谢阅读~