Kaggle初级比赛思路分析- House Prices
2019-08-14 本文已影响0人
熊出没之熊二快跑
(文末有福利哦)
如何看赛题
首先看赛题的类型,是属于分类还是回归问题,房价预测很显然是一个回归问题
看赛题的什么内容
首先看数据的描述

看数据的统计分析
有两个途径,一是通过kaggle自带的统计分析展示
图片上传中...(image-c3615b-1565762488064-0)]

也可以使用
pandas_profiling
这个工具
import pandas_profiling as ppf
ppf.ProfileReport(train)

思路分享
数据明确->解决问题的思路
- 数据->(回归做预测)
- 想到哪些算法可以做回归
- 线性回归要什么样的数据才可以用
- 数据中是否有字符或者缺失值,如何把他们变成数值型
- 特征工程的思路,数据的EDA(pandas_profling)、特征选择,特征组合或者特征分割
- 算法的选择
文末福利
获取数据读取及统计分析代码
链接:https://pan.baidu.com/s/1XDbDcyRfs09BK8CInzZ4eQ 密码:2yg6