Kaggle之旅—房价评估(2)
我们接着继续聊下房价评估这个项目,今天主要来讲讲数据分析中的回归分析。
有趣点:本文会讨论一个很有趣的观点,包括Kaggle中的多个kernel中也都想当然的引用且使用了的观点。那他真的正确吗?有没有其他可能性呢?
项目:House Prices: Advanced Regression Techniques
数据:美国爱荷华州中部爱慕斯的历史房屋相关数据
深入理解数据
这个项目提供的数据一共有81个列,即81个变量。这么多个变量,如何知道哪两个变量是强关联关系,哪两个是弱关联关系呢?
- 这里涉及到变量之间的关系
1.完全确定关系 → 函数关系
2.不存在完全确定关系 → 相关关系 → 平行关系[相关分析] + 依存关系[回归分析]
若两个变量是线性相关,则定会有线性相关系数,也会有相关系数的误差。我们也可以从变量之间线性相关这个角度尝试理解。
- 开头所提出的变量之间关系问题 → 跟SalaPrice线性相关的变量都有哪些,相关系数大的又有哪些?
相关矩阵可以告诉我们:
image结果得出由38个变量之间的相关系数组成的相关矩阵。
38个变量怎么来的?
相关系数也只能由数值之间进行计算,所以结果中的38个变量 = 3个float类型变量 + 35个int类型变量组成。
将这个相关矩阵画出来。
image挑选与SalaPrice相关性排名前10的变量们。
image将这10个变量的相关矩阵画出来。
image数据分析
我们首先来了解下回归分析。
- 回归分析
回归分析:研究因变量(目标)和自变量(预测器)之间的关系。
- 回归分析的好处:
1.可表明自变量和因变量之间的显著关系
2.可表明多个自变量对一个因变量的影响强度
- 回归模型都有哪些?
1.线性回归
2.逻辑回归
3.多项式回归
4.逐步回归
5.岭回归
6.套索回归
7.ElasticNet回归
- 回归分析有5个假设:
1.线性关系
2.多元正态分布
3.没有或少量的多重共线性
4.无自相关
5.同方差性
- 回归分析中需要注意点:
1.对异常值很敏感,需要排除异常值
2.要求所有变量为多元正态,若不是时,需要进行非线性变换
3.独立变量之间不过高相关
使用相关矩阵来计算
计算容差
方差膨胀因子
4.数据应少或没有自相关
残差彼此不相关时发生自相关
5.同方差性
问题点
- 当前这个数据集中,SalaPrice并非是所期望的正态分布,那需要对SalaPrice进行正态分布化处理吗?
Kaggle中的多个kernel在进行回归分析时,都会校验因变量是否为正态分布,就因为是回归分析中5个假设中的其中之一。
image正态分布化处理
image- 上述这个步骤是必需的吗?
可以确定的是回归分析中的正态分布,未必是必需的。
我们下篇文章接着聊回归分析的问题。