大家趋之若骛的大数据,为什么会令我感到害怕
每次打开亚马逊,它推荐的商品为什么总能轻易get到我们的点?
亚马逊这种基于用户的订单和浏览记录,来推测用户的偏好,对用户进行精准的个性化推荐的机制,可以说是利用大数据获利的典型了。这种模式在提高用户下单率的同时,也通过这种“投其所好”大大降低了用户流失的可能,用户使用网站的次数越多,产生的数据必然就越多,亚马逊的推荐也必然更加的精准,用户的流失成本也就越高,毕竟不是哪个网站能如此懂我们的心思的。
确实,随着互联网的发展,尤其是移动互联网的兴起,我们采集数据变得越来越方便,而计算机科技的日新月异,让我们处理大量混乱的数据变得可能且方便,而对大数据的分析也确实给商业发展带来了另外一种红利,这点我们无法反驳,也不会去否认它。
1.大数据红利
在笔者一诉内心对大数据的担忧之前,先谈谈大数据给我们带来的红利。
1.1 来源:取之不尽
这一点,其实没什么好疑惑的。
对于淘宝京东电商类产品,我们购买的商品、支付的金额、身份信息、地域、手机型号这些是数据;对于微博微信这类社交产品,我们的社会关系、发布的动态、聊天记录这些也是数据;对于滴滴打车这种出型类产品我们的打车时间、始发目的地、车程金额这些也是数据......诸如此类;
更别说还有产品上的各处埋点,用户在各个界面的停留时间、各个按钮被点击的情况、各个信息被搜索的情况这些更细节化的数据可以供我们采集。
夸张点说,只要用户用了我们的产品,只要我们想,我们能搜集到所有我们想搜集的数据。就连手机的摄像头不也能被远程控制了吗?
1.2 使用:用之不竭
在大数据时代,数据就像是一个漂浮在海洋中的冰山,它的基本用途其实仅仅是露出在海面的那冰山一角,更多的价值还隐藏在其表面之下,深不见底。
数据真正的价值在于其似乎无限的再利用,也就是它的潜在价值。一般来说,我们通过三种最常见的方式来对其进行释放:基本再利用、数据重组、数据拓展。
1)数据再利用
数据再利用是最普遍的一种方式。其中一个典型的例子就是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。数据在完成基本用途后,并不代表着其已经一文不值了。在很多情况下,以往的查询也能变得很有价值。电商类产品通过对用户客单价数据的分析,来发现自己用户的消费能力,从而对自己平台上的产品进行重新的整理筛选;今日头条利用用户产生的浏览数据,对用户进行个性化推荐,也是典型的对数据的再利用。
2)数据重组
有时候,单个数据并不能使我们从中发现有价值的信息,这个时候我们如果将它与其他数据组合在一起,往往能够做出一些有创意的东西来。
以2011年发表的一项“关于手机是否增加致癌的可能性研究”为例。当时丹麦癌症协会,便是将“1985年手机推出以来的所有手机用户”与“期间共10729名中枢神经系统肿瘤患者”这两个数据库相结合,才得以对“手机是否会增加致癌率”进行研究。当然最终研究并没有发现使用移动电话和癌症风险增加之间存在任何关系。
3)数据扩展利用
如果可以的话,我们最好在一开始就设计好数据的扩展性(埋点可以算是一种),虽然我们往往很难做到,毕竟数据利用的不确定性太多,我们难以完全预料到它以后到底会被用到多少用途。
那么什么是数据的扩展性?
我们以零售商店的摄像头为例。一般来说门店装摄像头的作用主要就是监控店内情况对小偷产生威慑,这是数据的基本功能,但若对这些数据进行扩展运用,零售商可以根据客户的走动路径和停留情况,进行店面布局的设计并判断营销活动的有效性。如果说之前,监控摄像机仅用于安全保卫,只是一种纯粹的成本支出,那么现在就可以视作一项可以增加收入的投资了。
而谷歌的街景汽车其采集的GPS数据、房屋和道路的照片等不仅完成了优化地图服务这一基本用途,还扩展到了对谷歌自动驾驶汽车的运作。
数据的扩展利用和数据的再利用有一定的重合度,如果硬要区分,笔者更倾向于将扩展利用定位成“跨领域”的使用。
1.3 作用:洞察
大数据最大的作用,就是能够洞察事物之间的相关关系,并让我们可以从中获益。就像Farecast通过对将近10万亿条价格记录的分析,来预测美国国内航班的票价。其预测的准确度高达75%以上,帮助购买机票的旅客平均节省50美元每张机票。
而随着我们收集到的数据种类越来越丰富,数量越来越多,大数据分析能涉及到的层面也必然越来越多。现在已经可以通过人们搜索感冒、咳嗽、发烧等相关词条的情况,来预测流感的发生;可以通过推特上人们对于疫苗的态度来判断他们实际注射预防流感药物的可能性揭示个人的卫生行为;以后必然会发展成通过对人过往行为、社交网络状态、GPS定位等数据的分析,来判断一个人即将发生的行为。当然到了这个层面就变得非常可怕了,大数据对人们生活的负面影响开始展露出来。
2.大数据隐忧
还是以之前的亚马逊网站为例,随着时间的推移,,这种基于个性化精准推荐所产生的惊喜与倍感贴心之外,不免会令人产生另一种恐慌:它怎么能这么了解我的喜好?它凭什么能这么了解我的喜好?它除了了解我的喜好之后还知道我的哪些个人隐私?
随着互联网越来越深入我们的日常生活,我们越来越多的信息被以数据的形式记录的时候,必然会有更多人开始意识到我们无时无刻不在第三只眼的监视之下时,这种数据恐慌必然会成为一种社会型的心理问题。
大数据造成的隐忧,恰恰来源于大数据所带来的红利。这也是为什么笔者之前花了这么长的篇幅来阐述大数据带给我们的好处。
人们对大数据的恐惧,首当其冲的便是自身隐私的泄露了。即使是仅处于大数据初期的当下,你要是在网络上成了众矢之的,热心的网友也有的是办法把你人肉出来。而随着互联网的发展,我们对其依赖的日益加剧,我们的行为、实时地理位置、个人行为习惯、偏好兴趣都将变成一条条数据存储于企业的数据库之中。
而这种个人数据一旦积累的一定程度,国家甚至能用其来判断预测一个人是否会犯罪并对其进行惩罚。乍一听,似乎没有什么,你既然有犯罪的倾向,那我防范于未然提前制止无可厚非,这样也避免了对无辜的人或财产造成不必要的伤害。
但我们细想一下,人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。这是非常可怕的。数据仅仅是能预测一个人有可能犯罪而已,事实上他并没有付诸行动。再有想法到实施之间充满了不确定性,就算他最终回头是岸的可能只有千万分之一,但即使可能性微乎其微我们也无权剥夺一个人选择的权利。社会关于个人责任的基本信条是:人为其选择的行为承担责任。对于一个还没进行行为选择的人,仅凭数据预测而对其进行惩罚是不合理的。它否定了我们生而为人最重要的两个特性——自有选择的能力和行为责任自负。
而除了以上大数据对我们个人产生的不利影响之外,就数据本身,其必然也会出现被大公司垄断的情况。就国内的互联网布局来看,又有多少互联网企业背后没有BAT的影子,而随着BAT涉猎领域的越来越多,其所收集掌控的数据必也成几何式增长,而当大部分的数据被少部分人掌控在手上的时候是十分危险的事情;而且从经济发展来看,当个别公司拥有了大量的数据之后,其能从中获得的利益将更大,马太效应将更加明显,最终甚至可能出现整个互联网江山一家或者几家仅存的情况。
3.大数据时代的“安心丸”
人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制,就像之前的核技术和生物工程学其他领域的发展,只不过现在这些变成了大数据而已。我们需要意识到这些技术的危险,促进其发展的同时建立完善的管理机制,这样才能安心享用其果实。
那么,我们到底该如何研制出,专属于大数据时代的“安心丸”,能让我们摆脱这种对数据隐患的恐惧的呢?
1).个人隐私保护:从个人许可到让数据使用者承担责任
过往的隐私规范的决定权都在用户自己的手上,由用户去选择是否统一计算机软件记录自己的数据,授权给谁来使用自己的数据。事实上这是非常不合理的,而且在很多情况下很难做到。因为在很多情况下,数据并不被仅仅用于其基本的作用。
以谷歌通过用户对感冒、咳嗽、发烧等词的搜索情况预测流感为例,按道理,用户产生的数据仅允许被你谷歌所记录,但若你要对此进行专门的研究,更有甚者要以此盈利的话,是不是还要再征求下用户的同意?
理论上是,但或许没有加互联网企业会这样做,像上亿个用户寻求许可这个成本可想而知。但就目前的法律来看,数据使用者并不需要承担责任,也就是他可以肆意的使用用户的数据,但迫于社会压力鲜有企业敢明目张胆的使用敏感数据。但现在不会,不代表以后不会。但如果法律明文规定,数据使用者需要为使用数据并数据的分析结果承担相应责任的话,或许他们在使用前就会三思而后行了,更加谨慎了。
2).保证个人动因前提下的预测分析
这是为了避免我们仅因数据预测就被判定有罪受罚的情况发生。通过个人动因的保证,确保政府对我们行为的评判是基于真实行为而非单纯依靠大数据分析。
从而,政府只能依法对我们过去的真实行为进行追究,而不可以追究大数据预测到的我们未来的行为;或者政府在评判我们过去的行为时,也应该防止单纯的依赖大数据的分析。
而这也需要应用到政府机构之外的领域,比如基于大数据预测,导致的公司解雇员工、银行拒发信用卡、保险公司不允许投保。对于依赖大数据预测做出决策的情形,务必需要保证公开、公正、允许被预测者对预测结果上诉等原则。
3)专业的大数据算法师
大数据的运作通过计算机进行处理,本身就是处于一个超出我们正常理解的范围之上。如果我们无从得知最终预测的结果是如何产生的,我们又凭什么去相信这个结果是可信的?如果这个结果与我们以往的认知完全不同,我们又如何来判定是我们以往认知的错误,还是因为在数据的分析过程中出现了未知的错误导致结果偏差?
而这一切,都需要一个了解数据运算法则的人来确保数据运算的透明和可检测。这类人可以定义为大数据算法师。他就像现在的审计员一样公平公正,以一种灵活的自我监管的方式来保护大众的利益。
4).反数据垄断
数据对于信息社会来说,就像燃料对工业社会的作用,是人们进行创新的力量源泉。这是一个万众创新的时代,如果没有数据作为原料,社会经济的发展必然会滞后,所以我们必然需要保证数据的多样性和自由行,而要做到这点则必然让数据垄断的情况发生。
就像19世纪,美国为了改变大亨垄断铁路、钢铁生产和电报网络的情况,所制定的反垄断条例。为了促进大数据平台上的良性竞争,政府也必须推出适应大数据时代的反垄断条例。
大数据时代的来临,是机会但也是挑战。如果社会机构和政府不能及时研制出合适的“安心丸”。紧随大数据红利而来的,必然是数据所带来的隐患。真到了那一天,也就不能叫隐患了,而是实打实的数据灾难。