kaggle项目实战——泰坦尼克号船员存活率预测

2019-03-03  本文已影响0人  小小韩_小小红

很久之前练习过的一个kaggle项目,有点记不清了,今天来温习下,嘻嘻~
kaggle给初学者或者富有挑战能力的选手们提供了一个非常好的平台,希望自己以后尽量抽时间多做几个这种项目,与大牛们一起交流学习~

1.下载理解数据集

下载地址:https://www.kaggle.com/c/titanic/data(需要注册kaggle才能下载哦~)
下载完数据集要理解每个字段的含义,项目背景等,这个 很重要哦~

2.加载查看数据分布、缺失、异常情况

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
train=pd.read_csv("F:/titanic/train.csv")
test=pd.read_csv("F:/titanic/test.csv")
train.head() #大概看一下数据长什么样
#查看数据类型,缺失情况等信息
train.info()
test.info()

通过上面的信息,我们可以得到:

train.describe()
test.describe()

通过上面的统计描述信息,我们可以发现:

train.describe(include=["O"])

通过对训练集的特征统计信息,可以发现:

3.数据探索,挖掘各个特征与目标特征之间的关系

先看一下这些数值特征与目标特征间的线性相关性:

import seaborn as sns 
#Seaborn是对matplotlib的extend,是一个数据可视化库,提供更高级的API封装,在应用中更加的方便灵活
corrmat=train.drop('PassengerId',axis=1).corr()
f, ax = plt.subplots(figsize=(10, 7))
plt.xticks(rotation='90')
sns.heatmap(corrmat, square=True, linewidths=.5, annot=True)
plt.show()

通过上图,可以发现:

train[['Survived','Pclass']].groupby(['Pclass']).mean()

通过上面的结果,可以发现Pclass等级越高,存活率越高,这是一个比较重要的特征
(2)对Age进行分析
target = sns.FacetGrid(train,col='Survived')
target.map(plt.hist,'Age',bins=20)

通过上图,可以发现:

train[['Survived','SibSp']].groupby(['SibSp']).mean()
train[['Survived','Parch']].groupby(['Parch']).mean()

通过上图,可以发现:

target = sns.FacetGrid(train,col='Survived')
target.map(plt.hist,'Fare',bins=20)

通过上图,可以发现:

train[['Survived','Embarked']].groupby(['Embarked']).mean()

可以发现:

train[['Survived','Sex']].groupby(['Sex']).mean()

可以发现:

target = sns.FacetGrid(train,col='Survived',row='Pclass')
target.map(plt.hist,'Age',bins=20)

可以发现:

4.数据清洗、特征变换等

经过上面的分析,我们需要:

del train['PassengerId']
del train['Cabin']
del train['Ticket']
train = train.fillna({"Age":train.Age.mean(),'Embarked':"S"})
train['Name']=train['Name'].map(lambda line: line.split(",")[1].split(".")[0])
train.head()

发现称谓除了 Mr、 Miss、 Mrs、 Master,其他的都很少,所以这里把剩下的都统一改成other

train['Name']=train['Name'].map(lambda line: (line.strip() if line.strip() in ['Mr','Mrs','Miss','Master'] else 'other'))
train['Name'].value_counts()
train[['Survived','Name']].groupby(['Name']).mean().sort_values(by='Survived')

可以发现,Mrs和Miss的存活率更高,Mr的存活率最低,后续我们也要将这个特征亚编码后加入模型中训练
下面对Age进行分段,这里就直接根据前面的分析自己定义分段区间,有精力可以用决策树辅助分段,效果应该会更好

def age_parse(line):
    if line <=15:
        return '0-15'
    elif 15<line<=35:
        return '15-35'
    elif 35<line<=50:
        return '35-50'
    else:
        return '>50'
train['Age']=train['Age'].map(age_parse)
train.head()

下面对定性特征统一亚编码:

train = pd.get_dummies(train)
train.head()
#去除亚编码后线性相关变量
del train['Name_other']
del train['Age_>50']
del train['Embarked_S']
del train['Sex_female']
图1
特征标准化

由于Fare这个特征含有较大的数值,为了避免由于量纲带来的问题,我们将它进行标准化

from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(np.array(train['Fare']).reshape(891,1))
fare = scaler.transform(np.array(train['Fare']).reshape(891,1))
train['Fare'] = fare
train.head()
注意: 测试集所有特征变换,特征清洗都是基于训练集来的,例如:如果训练集用训练集的A特征均值填充A特征的缺失值,那么测试集也要用训练集中A特征的均值填充缺失值,鉴于时间和精力有限,这里我只对训练集统一进行处理,测试集先不做处理,以后有时间再进行处理(捂脸),由于数据处理存在许多转换步骤,需要按一定的顺序执行,可以推荐用sklearn中的pipeline模块,可以对训练集和测试集统一数据处理,非常好用~

5.构造特征工程

这个环节就可以充分发挥你的想象力,构造与目标变量相关的线性特征、非线性特征、交叉特征等,可以构造很多,后面特征筛选的时候过滤掉就好,例如可以构造Age与Pclass的交叉特征,构造Pclass与称谓的交叉特征,sklearn也提供了相应的函数,如果有两个特征(x1,x2),构造2次多项式特征,则完后会生成(1, X1, X2, X1^2, X1X2, X2^ 2),这里我直接用特征构造函数,直接构造所有特征的2次多项式特征(也可以构造3次或者更高次,可以看下效果对比,这里我就直接生成2次多项式特征了)

survived = train['Survived']
from sklearn import preprocessing
#构造2次多项式, 默认也是2次,设置参数include_bias= False,不包含偏差项数据
poly = preprocessing.PolynomialFeatures(2,include_bias=False)
poly_train = poly.fit_transform(train.drop(['Survived'],axis=1))
poly.get_feature_names()[0:20]
train_df =pd.DataFrame(poly_train)
train_df .columns=poly.get_feature_names()#特征重命名
train_df.head()

注意:这里的列名x0,x1...与图一中除了‘Survived’的列名是一一对应的,因为名称太长,所以会自动生成新的名字
生成了这么多特征,我们可以看一下他们与目标特征的相关性:

可以发现:
x0与x6,即Pclass与Name_mr相关性系数很高,x0与x10,即Pclass与Age_15-35相关性也很高,进一步查看下关系:
train_df[['Survived','x0','x6']].groupby(['x0','x6']).mean().sort_values(by='Survived')
train_df[['Survived','x0','x10']].groupby(['x0','x10']).mean().sort_values(by='Survived')

可以发现:

6.建模、调参、模型评估

上一篇下一篇

猜你喜欢

热点阅读