数据处理Project_2工业蒸汽量预测
2022-02-23 本文已影响0人
Nefelibatas
背景
在梳理处理之前我们先了解下火力发电原理,便于明白最终需要做什么。
燃料加热水 => 生成蒸汽 => 推动汽轮机旋 => 带动发电机旋转 => 产生电能
在这个过程中,影响发电效率的核心是锅炉的燃烧效率。
-
锅炉的可调参数:如燃烧给量、一二次风、引风、返料风、给水水量
-
锅炉的工况,比如锅炉床温、床压、炉膛温度、压力、过热器的温度

可视化数据探索
- 对v0制作箱线图,观察数据分布的特征

- 单个字段数据分布绘制后,我们可以对所有字段进行箱线图绘制

对所有的特征,查看训练集和测试集的分布是否一致,用直方图进行绘制。
使用kde图进行绘制,KDE(kernel density estimation)核心密度估计是在概率论中用来估计未知的密度函数。

- 线性回归关系图
使用线性回归分析变量之间的相关性
sns.regplot() :绘图数据和线性回归模型拟合

对于所有的特征与Target的线性回归关系

- 绘制相关热力图
对角线上的数值为1,相关性=1
Q : 如何通过相关性系数对特征变量进行筛选?
特征数量有限的情况下,相关性不大的可以不入模,比如设定threshold=0.5
Q: 要选取corr > 0.5吗?
需要对相对系数的绝对值进行判断。

筛选出来与Target相关性系数>0.5的特征,并对这些特征进行相关性系数热力图呈现。

总结
- 数据探索EDA,帮我们对数据进行宏观分析,数据缺失、数据重复、异常值检测、方柏霓后续的数据清洗、特征选择工作。
- visualization可以让我们更好的理解数据
- 可视化的图表有很多,关键是对业务的理解,才能转化为图表的语言