预测泰坦尼克号乘客是否遇难
第一篇文章也是泰坦尼克号乘客预测的主题,但是是结合了保险行业的需求,不仅仅是单一的0/1分类问题,详细可以参考第一篇文章(●'◡'●)
今天这篇文章依然是泰坦尼克号主题,且是简单的0/1预测,继续看这样一个项目的初衷是想了解这个主题的初始研究目标,重点事项学习数据如何清理,特征如何选取,以及去了解完成一个数据项目的流程以及每个步骤的常见套路,所以今天,我们没有具体完整的代码,重点是关于数据预处理分析部分的分析和流程的记录(●ˇ∀ˇ●)
1) 定义问题
遇到一个待解决的问题——>产生一个新的需求——>想到一系列解决方案——>为验证解决方案设计实施步骤——>为了实施需要使用的技术。
经常地,我们往往沉迷于新的技术,而不明白我们实际想解决的问题是什么。明白自己的问题是什么,业务需求是什么,研究一个算法优化一个模型才是有意义的。
在这个案例中,
问题是根据乘客性别,社会等级,年龄等一系列信息,如果这个乘客在泰坦尼克号游船上,他能不能幸存?
需求可以描述为,能不能根据历史数据,预测泰坦尼克号乘客是否遇难?
解决方案需要考虑到妇女儿童有限,社会等级高的人有限,很明显,遇难/幸存,是一个二分类问题。
2) 收集数据
数据已经存在(结构化的&非结构化的,主观的&客观的,etc),在于我们如何找到它。
收集数据在于我们明确的自己的研究的问题目标和需求,去收集相关的各种数据。
3) 准备数据
旨在将无序的数据清理为有序的能满足我们业务需求的格式数据。
我们需要完成两部分工作,
1.分析每个数据变量,确定因变量和自变量
- 4C:
Correcting,纠正异常值(年龄=800,城市距离=3000Km 等等)
Completing,填补缺失值(均值,中位数,众数等等)
Creating,组合新的特征用于分析(基于当前特征组合新的特征,如两地经纬度差值,)
Converting,转换数据格式
4) 探索性分析,描述性,图形化的分析,定性特征和定量特征的区分,对于厘清数据中潜在的相关性关系,非常关键。
5) 数据建模,错误的模型,好的情况表现为性能差,查到情况会得到错误的结论。所以,模型很强大,但是我们依然是选择模型的master.
6) 模型验证和实施,过拟合,欠拟合,通用化的。
7) 模型优化并给出分析结果。
从两个方面,一个是技术本身,模型能不能再优化,结果是否合理;一个是业务本身,模型是否已经满足需求,模型的输出是否解决问题。
下一篇,我们尝试一下,数据分析在整车市场有哪些应用呢?
55783122.jpg