机器学习之路

数据处理Project_2工业蒸汽量预测

2022-02-23  本文已影响0人  Nefelibatas

背景

在梳理处理之前我们先了解下火力发电原理,便于明白最终需要做什么。

燃料加热水 => 生成蒸汽 => 推动汽轮机旋 => 带动发电机旋转 => 产生电能

在这个过程中,影响发电效率的核心是锅炉的燃烧效率。

image-20220214000956723.png

可视化数据探索

image-20220214001208951.png image-20220214001251812.png

对所有的特征,查看训练集和测试集的分布是否一致,用直方图进行绘制。

使用kde图进行绘制,KDE(kernel density estimation)核心密度估计是在概率论中用来估计未知的密度函数。

image-20220214001536028.png

使用线性回归分析变量之间的相关性

sns.regplot() :绘图数据和线性回归模型拟合

image-20220214001730984.png

对于所有的特征与Target的线性回归关系

image-20220214001815705.png

对角线上的数值为1,相关性=1

Q : 如何通过相关性系数对特征变量进行筛选?

特征数量有限的情况下,相关性不大的可以不入模,比如设定threshold=0.5

Q: 要选取corr > 0.5吗?

需要对相对系数的绝对值进行判断。

image-20220214002126731.png

筛选出来与Target相关性系数>0.5的特征,并对这些特征进行相关性系数热力图呈现。

image-20220214002241177.png

总结

上一篇 下一篇

猜你喜欢

热点阅读