何以深呼吸

2016-01-24  本文已影响318人  elleyes

2015年,有一部很火的IP作品《何以笙箫默》,里面有一句蛮有意味的小句“世界上最痛苦的事,不是无能为力,而是当一切都触手可及,我却不愿伸出手去。”曾经的岳阳,我们自豪的说,岳阳是一座可以深呼吸的城市。然而,回首2015年,岳阳人,是否依然可以深呼吸?

2015年10月,一位朋友从常德过来,游玩之余,漫不经心的说了一句,“岳阳今天天气好差,不会有霾吧”。当时我心里一惊:“或许是雾吧”,但却萌生了用Python和PHP来分析岳阳空气质量的想法。

时间转眼到了一月,两篇报道吸引了我的注意。


2015年“岳阳蓝”达332天
省环保厅发布2015年12月及全年全省环境空气质量排名

作为一个对数字还算敏感的人,当时我就发现第一篇文章332/365绝对不可能为88.3%,而是应该为90.96%,而假如逆推88.3%的话,应该为322天,与“相比上年度空气质量优良天数267天多出65天”又自相矛盾。而且332和267这个两个数字都属于加1减1的补偿的思维定式,所以有一定的捏造的可能,同时与省环保厅宣传差别太大,平均77.9%,岳阳全省倒数第二,所以这里肯定有问题。

既然有问题,那就解决它吧。在中华人民共和国环境保护部信息中心爬下了所有AQI数据,并从青悦开放环境数据中心得到一部分缺失的数据(2014.4.11才启用南湖风景区、城陵矶、开发区、云溪区、君山区、金凤水库监控点,之前全市只有国控和非国控两个数据),利用Execl和SPSS开始了分析。

总体分析

AQI月变化趋势 2015年日AQI变化趋势
地区/时间 轻度污染 中度污染 重度污染 严重污染 优良率
娄底2015 18.4% 58.6% 20.3% 2.2% 0.5% 77%
株洲2015 21.6% 55.1% 14.5% 6.6% 2.2% 76.7%
常德2015 14.8% 64.1% 17.0% 3.8% 0.3% 78.9%
长沙2015 18.5% 51.5% 19.6% 6.9% 3.6% 70%
湘潭2015 19.2% 55.3% 18.4% 6.0% 1.1% 74.5%
郴州2015 29.3% 54.2% 14.8% 1.6% 83.5%
岳阳2015 8.8% 64.7% 24.7% 1.9% 73.5%
岳阳2014 2.7% 73.4% 16.5% 5.8% 1.1% 0.5% 76.1%

部分数字采用四舍五入的进位方式,

在统计中2015年有国控和非国控以及省和环保部好几套数据,由于是与其它市洲和往年比较,选取了一套数据较全的样本集,其它样本集计算出来优良率的结果分别为79.45%和75.62%,与新闻上宣传的88.3%差别还是蛮大的,和环保厅的77.9%比较接近。
在全省看来,今年岳阳空气质量真的算差的,2015年全国月排名最好一次169,最差一次276,平均202;而2014年全国月排名岳阳平均104,也就是说2015年退步了98个名次,说好的深呼吸呢!!!

2015年和2014年每月AQI平均值对比

同时,不能抹杀环保部门的努力,2015年相比2014年,严重污染、重度污染和中度污染大有减少,均值也有所下降。全年12月中,同比减少的月份有1、3、4、5、6、10、11月,同比增加有2、8、9月,同比持平有7、12月,总体上还是向好的趋势转变。

污染严重的天什么时候出门比较好?

2015年岳阳24小时污染情况

如果遇到污染天气,全天污染较为严重的分别是0点、1点、2点和13点、21点、22点、23点,所以早点回家不要在外面浪是对的....

实际是因为白天有太阳辐射的作用,空气之间的交换比较明显,即便有污染也会跟其他周围的空气进行扩散、稀释;但在夜间地面辐射降温作用比较明显,所以近地面层的空气容易形成逆温层,地面风力较小的话,空气交换作用不明显。

岳阳哪个地方空气质量最好,哪个地方最差?哪个地方治理最见成效?

岳阳市大气监控点位置
各监控点数据分析

首先,金凤水库监控点工作人员要培训啦吧....一年故障数快接近其它监控点的故障数总和。然后不出意外的南湖风景区以6633次优良、1383次污染位列宜居榜之首(不过哪个点在地图上怎么看都像是在金鹗公园里面),君山区以6437次优良、1489次污染居第二,最差的则是经济开放区。
云溪区以20.69%的优良提升率居第一,君山区12.69%居第二,金凤水库是唯一有下降的地方,下降5.48%。

地区 |2015年 |2014年|优良变化率|
----|------------|---------------|
城陵矶|0.74795943606233|0.707094201694634|0.0408652343676963
金凤水库|0.733737323769478|0.788503073600266|-0.0547657498307877
君山区|0.796067276774672|0.669211618257261|0.126855658517411
开发区|0.734603017561217|0.709762970329852|0.0248400472313645
南湖风景区|0.820306702943359|0.790531561461794|0.0297751414815649
云溪区|0.784442245857037|0.577586206896552|0.206856038960485

利用插值估计和海拔图来推测岳阳区域空气最好的地方(由于大部分为平原,不考虑地势分布和空气扩散条件,同时没有地面1.5m的开阔、通风地区的均一观测值,结论有可能完全不正确,just for fun!)

顺便玩个小游戏,大家一起来猜猜哪天发生了什么

各大气监控点严重污染时间

2月19号我猜出来是初一零点大家在放烟花。
但1月19号是什么?

数据是否有作假?

Benford 定律验证法

奔福德定律(Benford'slaw)也被称为“首位数现象”(First-digitphenomena)、有效数字法则(Significantdigitlaw)、对数法则(LogarithmLaw),是从统计学角度检测鲜为人知的数字分布的内在规律。该定律揭示了在满足特定条件的情况下,大量统计数据中数字1—9出现在数据首位的概率分布规律。
1881年,美国数学家Newcomb最早发现Benford定律。1938年,美国通用电气公司(GE)科学家FrankBenford通过研究,得出和Newcomb同样的结论:人们处理较小数字开头的数值的频率较大。为了证明结论,Benford收集了20229个20组数据,这些数据来源千差万别,发现整数1在首位出现的概率约为30%,整数2约为17%,而8和9在数字首位出现的概率分别为5%和4%。通过分析,Benford发现正常的数据集符合某种规律,并因此推导出Benford定律的数学表达式,即数字第一位上各个非0数字出现的概率,用公式表达如下:


依据加州大学伯克利分校对北京AQI指数进行的benford率验证的方法(论文链接),我对岳阳2014、2015年AQI进行验证,结果如下:



一般而言,chi-squre 值低于5% 的数值表示表示实际分配符合预测分配(Benford) 的概率非常低;而数值10%或以下,表示至少有 90%的概率,資料可能是不正常的。独立性检查结果值非常低,表示样本资料可能是人工伪造的。

Logistic回归分析
即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴(详细解释)

由于我无法建立符合逻辑的评定模型,咨询THU的朋友也无果,表示放弃该分析方法。

附:空气质量指数级别


AQI环境空气质量指数

资料来源:
中华人民共和国环境保护部信息中心
青悦开放环境数据中心
中国大陆重点城市空气质量历史数据库项目
PM2.5科学实验专家小组
Wikipedia

上一篇下一篇

猜你喜欢

热点阅读