机器学习与数据挖掘大数据,机器学习,人工智能数据分析案例

KDD CUP 2018 | 北京监测站点空气质量可视化分析

2018-05-17  本文已影响83人  Sudden

KDD CUP作为全球顶级数据挖掘竞赛,幸得师弟鼓励拉上本拖油瓶一起参赛~~

5.31日比赛就结束了,这次的kdd cup作为我们的练习赛吧,本来早就要做这个可视化分析的,但是工作太忙,一直抽不出时间,抱歉了,战友们=。=

明确目的
选点探索

一、数据观察

观察结果

  • 表内容:北京2017-2018年,指定站点在各整点时间的空气质量
  • 共有31万条数据,其中PM2.5/No2/O3/SO2缺失2万条数据、CO缺失5万条数据、PM10缺失9万条数据(数据清洗和补全)
  • PM2.5均值在59左右,最大值为1004爆表

二、数据清洗和补全

三、时间字段(utc_time)的处理

为了方便下一步探索规律,对时间字段处理如下

四、规律探索(可视化)

分析维度

  • 分季节、分星期几查看空气质量参数的统计特征
  • 6个空气质量参数的关联性分析(先按季节划分)
  • 空气质量参数的时序分析
4.1 分季节、分星期几查看空气质量参数的统计特征

分季节,空气质量参数统计情况分析:

各星期几,空气质量参数统计情况分析:

4.2 6个空气质量参数的关联性分析(先按季节划分)

各季节空气质量参数关联性分析:

4.3 空气质量参数的时序分析
4.3.1 各月,PM2.5/PM10/O3均值的变化

分析

4.3.2 各季节、各星期几,PM2.5/PM10/O3均值24小时的变化特征

dongsi监测点PM2.5分析:

dongsihuan监测点PM2.5分析:

对于PM10、O3的分析与PM2.5类似,可视化结果展示在源代码

4.3.3 分月,分时间点,PM2.5/PM10/O3均值随日期的变化特征

dongsi PM2.5分析:

五、总结

上一篇下一篇

猜你喜欢

热点阅读