玩转大数据首页投稿(暂停使用,暂停投稿)

Will是何人?(酷炫的数据分析--多图预警)

2016-11-13  本文已影响70人  很咸的鱼

<p>
今天突然回想起来,自己半年前参加的一个大数据入门培训(作为运营部门的人,是一定要时不时充实自己的水平的!)。当时有一个小程序展示,真是让我鸡皮疙瘩掉一地,这里就来和大家分享一个下。
</p>
<p>
这次大数据分析呢,用的是国内外还是比较出名的分析系统(价格真是的很吓人……),它的名字叫Tableau。今天我们就要用它来分析一位路人甲--Will的生活。
</p>
<p>
这次分析的数据来源是一个本地的报纸做的数据分析竞赛,报纸网站上提供了一个路人甲Will掩盖过的手机数据(包括通话类型,数据流量,联网世界和链接的信号塔位置等),可惜竞赛已经结束了数据自然也没地方下载啦,不然我一定亲自操刀演练一遍。
</p>
<p>
好,让我们来用<strong>几分钟</strong>的时间搞清楚路人甲的“隐私”。
</p>
<p>
先来看看这位仁兄的通话量:


总量

可以看得出来,从2014年9月中旬开始数据量突然就增加了许多,在12月底更是到达了顶峰。我们猜测Will一定是在9月购买了一台新的智能手机(说不定还是Iphone,因为苹果往往是9月发布新机嘛),突然多出来的应该是手机的流量。
</p>
<p>
让我们用不同的颜色来区分一下数据类型:


总量分类
果然,通过左边的comm type(communication type),我们就能看出来,确实在14年9月之前,他是没有用手机上过网的……可以猜测出主人公的年龄应该不小了吧
</p>
<p>
经过简单的排列,我们还能发现,15年2月份有一大片数据是空白的:
总量分类2
这是个分析竞赛提供的数据,按理说是不会有数据丢失的问题,所以这个空白一定也是有什么特殊原因的,我们待会儿再看。
</p>
<p>
看完了数据量的情况,我们来看看数据采集的地理位置:
省份级别地图
由于是澳洲的数据,Tableau根据根据数据中的省份和邮编自动将数据分割到了3个省,分别是新南威尔士,维多利亚和塔斯马尼亚。由于71%以上的数据都是在新州采集的,我们假设这位兄台平时生活在新南威尔士,放大到这块区域来看看能发现什么。
</p>
<p>
左手边是Tableau根据信号塔位置和数据量显示出的地图,点的大小显示除了数据量的大小,右上是根据周来分割的数据量,右下的数据量是根据小时来分割的,颜色区分了通话的类型(在地图中点亮了数量的大小):
悉尼-时间分类

可以轻易看出,图中最密集的地方是悉尼市中心,其次是北悉尼的海边。通过右下的图来分析,我们也能猜测出Will早上6点多起来,出门上班,晚上21点以后就不打电话了,在床上玩会儿手机就睡了。
</p>
<p>
还是同一张图,如果我们把数据的范围(右下)缩小到0点到4点,也就是睡觉时间:


悉尼-0到4点
我们会发现,地图上少量数据在悉尼市中心(加班?)主要的数据都是在北悉尼采集的,这就说明了这位志愿者他家就住在那附近,是个大土豪啊!(注:北悉尼房价高,富翁多)
</p>
<p>
反过来看看市中心的数据:
悉尼市中心
果然,Will大都是周一到周五在中心活动,也说明了他确实是在市中心上班的。
</p>
<p>
回到上面说的2月消失的数据,我们把时间焦距到消失前的最后一天2月9日和再度出现的那一天3月3日:
离开 到达

地图1上的大点是悉尼国际机场,右下的时间告诉了我们,他9点到的机场,12点信号消失了。提早3小时到达机场?那可不是出国旅游了吗?
图2来看,他回来的时间是早上7点,8点清关出来,然后直奔回家休息了。
了解本地飞机的朋友可能还能发现另一个信息,悉尼机场一般同时满足在12点附近起飞,7点左右到达的通常都是去新加坡或者美国的航班。
<strong>你们看,只要这几分钟时间,一个人住哪,在哪工作,去哪度假基本都可以被挖掘出来。</strong>
</p>
<p>
看完了新南威尔士,咱们迅速的看看别的省:


塔斯马尼亚

Will出现在塔斯马尼亚最频繁的时间是圣诞节前后,和我们中国人一样,人家过年过节也要回老家庆祝的嘛,说明他的亲戚住在塔州,是个塔斯马尼“乡村”土豪啊……


维多利亚
再来看看维多利亚省的,一共就3天,而且在一个周末,地理位置也不是市中心,可以简单的猜测出这个是他全家某个周末出游的地方。
</p>
<p>
最后呢,我们来看看主人公都是谁联系过:
通话对象
第一纵列是联系人电话,由于是公开的数据,所以都被遮掩了,假设是联系人a,b,c,d……吧。
这个图我们也能比较直观的看出来,和a的联系通常都是用短信,下午下班后的联系比较多。不知道大家的习惯是怎么样的,我自己的偏向于和(女)朋友发短信多于打电话的。
再看看b,c这两位,基本都是在打电话,而且通话的时间段覆盖了上班时间,这也就说明了b和c估计和主人公是同事关系吧?

</p>
<p>
到此,我们仅仅通过几分钟的时间,就搞清楚了有关Will的很多隐私信息。如果我们继续深入,比如通过地理位置来分析通话时间地点猜测通话对象和Will是什么关系等等,我们就会发现个人隐私在正确的分析下是多么的没有保障……联想到淘宝上叫卖的各种客户信息,我便不再天真的以为21世纪的人是可以有隐私的了:(
</p>
<p>
发这篇文章的原因呢,纯粹是出于对这个行业的热爱,认为新鲜有趣的东西就应该搬回来和大家分享分享。有兴趣的朋友可以在<a href="https://vimeo.com/136721058">这里</a>找到原视频,希望这篇文章对不知道怎么用数据来<strong>帮助决策</strong>的人有所启发。
</p>
<p>
多谢支持
</p>
<p>
</p>

上一篇 下一篇

猜你喜欢

热点阅读