Kaggle Titanic乘客生还预测

2018-02-07 本文已影响0人 lkdont

各列数据的意义：

PassengerId:乘客id
Survived:是否生还
Pclass:船票等级
Name:姓名
Sex:性别
Age:年龄
SibSp:登船兄弟姊妹/配偶数量
Parch:登船父母/子女数量
Ticket:船票号码
Fare:船票价格
Cabin:船舱
Embarked:登船口

import pandas as pd
import numpy as np

# 加载训练数据
original_data = pd.read_csv("train.csv")
# 加载要预测的数据
original_predict_data = pd.read_csv("test.csv")

# 我们要预测的值是Survived，所以将其取出来。
y = original_data.Survived
original_data_without_survived = original_data.drop(["Survived"], axis=1)
# 由于数据分为训练数据和预测数据两个数据集，为了能以统一的方式处理数据，先将这两个数据集合并。
data = pd.concat([original_data_without_survived, original_predict_data], ignore_index=True)

1. 处理属性

有一些属性需要处理后才能用于训练模型。

1.1 PassengerId

PassengerId仅代表数据集中乘客的顺序，不影响乘客是否生还的结果，所以将其移除以防止影响预测结果。

data = data.drop(["PassengerId"], axis=1)

1.2 姓名

姓名属于标称属性，但每个人的姓名都不一样，这样并不好处理。检查数据发现每个姓名中都带有头衔，头衔的可能性较少，可以将其提取出来作为一个独立的属性来处理。

import re
name_title_pattern = re.compile(r'\w+\.')
# NameTitle的可能性为18个，与15相差不大，可适用one-hot编码。
data["NameTitle"] = data.Name.apply(lambda n: name_title_pattern.search(n).group())
# 去除姓名属性
data = data.drop(["Name"], axis=1)

1.3 性别

性别属于二元属性（只有男和女两种可能性），这里用“0”表示male，“1”表示female。

data["Sex"] = data.Sex.map({"male":0, "female":1})

1.4 船票号码

大多数的船票号码都是独立的，小部分号码是重复的。猜测拥有相同船票号码的乘客可能是同伴关系，因此将号码重复的次数作为一个独立的属性。

ticket_map = {}
for ticket in data.Ticket:
    if ticket in ticket_map:
        ticket_map[ticket] += 1
    else:
        ticket_map[ticket] = 1
data["Ticket"] = data.Ticket.apply(lambda t: ticket_map[t])

1.5 船舱

类似船票号码，大多数船舱都是独立唯一的。检查数据发现船舱首字母的重复性较高，猜测其代表船舱的区域，所以将其提取出来作为独立属性。

data["Cabin"] = data.Cabin.apply(lambda c: np.NaN if pd.isnull(c) else c[0])

1.6 船票等级

虽然船票等级属性为数值类型，但是可以将其看作分类属性。

pclass_names = ["A", "B", "C"]
data["PclassName"] = data.Pclass.apply(lambda x: pclass_names[x-1])
data = data.drop(["Pclass"], axis=1)

2. 处理缺失值

2.1 年龄

年龄丢失情况比较多，这里以pclass和性别进行分组，并取其中位数作为缺失值。

def get_default_age(pclass_name, sex):
    ages = data.Age[(data.PclassName == pclass_name) & (data.Sex == sex)]
    return ages.quantile(0.5)

data["Age2"] = data.apply(lambda r: get_default_age(r.PclassName, r.Sex) if pd.isnull(r.Age) else r.Age, axis=1)
# 将填充年龄的位置标记出来
data["AgeFill"] = data.apply(lambda r: 1 if pd.isnull(r.Age) else 0, axis=1)
# 将原本的年龄去除
data = data.drop(["Age"], axis=1)

2.2 船票价格

船票价格缺失值使用乘客所在等级的船票平均价格代替。

data["Fare"] = data.apply(lambda r: data.Fare[data.PclassName == r.PclassName].mean() if pd.isnull(r.Fare) else r.Fare, axis=1)

2.3 船舱

船舱缺失值太多，强行补充数据可能会为模型引入不必要的影响，所以将缺失值用“unknown”代替。

data["Cabin"] = data.Cabin.apply(lambda x: "unknown" if pd.isnull(x) else x)

2.4 登船口

缺失值使用出现频率最高的值代替。

# 出现频率最高的值是S
data["Embarked"] = data.Embarked.apply(lambda e: "S" if pd.isnull(e) else e)

3. one-hot编码

数据集中包含object类型的数据，不能直接用来训练模型。one-hot编码则是这种情况的常用解决方法，可以将object类型的数据转变成数值类型的数据。

data = pd.get_dummies(data)

4. 建立模型

4.1 训练模型

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import make_pipeline

train_y = y
train_X = data[:len(train_y)]

my_pipeline = make_pipeline(RandomForestClassifier(max_depth=5,
                                                   n_estimators=120))
my_pipeline.fit(train_X, train_y)

Pipeline(steps=[('randomforestclassifier', RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=5, max_features='auto', max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            n_estimators=120, n_jobs=1, oob_score=False, random_state=None,
            verbose=0, warm_start=False))])

4.2 预测并输出结果

predict_X = data[len(y):]
predict_y = my_pipeline.predict(predict_X)

ids = original_predict_data.PassengerId
submission = pd.DataFrame({
        "PassengerId": ids,
        "Survived": predict_y
    })
submission.to_csv('submission.csv', index=False)

最终结果：0.80382，排名前12%。