小机器成就大数据
“数据是下一代设计。不考虑数据的产品将被被时代所淘汰。”帮助客户检测与分析移动与web用户数据与行为的Mixpanel公司CEO Suhail Doshi如是说道。Mixpanel是硅谷最成功创业孵化器Y Combinator的2009年夏季毕业生,并于去年获得安德森·霍洛维兹(Andreessen Horowitz)领投的超过1000万美元的A轮投资,在Mixpanel官网最显眼处,写着:“Actions speak louder than page views.” 即“用户行为远比网站访问数更有说服力”。硅谷最具洞察力的孵化器和VC用钱投票出来的项目,点出了数据在移动时代的重要性,以及他们自己对数据的深刻理解。
访问数(独立访问数与总访问数)是传统互联网服务商最为看中的数据类型,比如门户完全基于流量变现,腾讯、百度以及奇虎360也仍处于粗放式利用数据阶段。根据IBM的报告,全球90%的数据是由过去两年内产生。根据IDC的计算和预测,2012年全球范围内产生了2.7ZB(相当于2^30GB,即1兆GB)的数据量,到2015年,将产生7.9ZB数据,而到2020年,讲产生35ZB之多的数据量,相当于2012年数据量的13倍。谁在驱动数据量的急速增长?
如果说过去两年中增长了占比90%的数据大部分仍然来自PC的话,未来的数据增长将更多来自可上网的移动设备,以及即将大量涌现的可穿戴式智能设备。智能设备的增长是一部分原因,更重要的原因来自未来人们日常中拥有的更多种类的设备,以及设备的更高的使用率,高使用率的驱动力来自于,更强的处理器,更高的存储容量,更快的网络条件,更廉价的网络资费,以及多屏多系统之间更为融合与互通的应用生态系统。
虽然中国4G网络还未开放,但就北美而言,4G网络带来的网络流量的增加非常明显。4G用户产生的数据量是非4G用户产生的数据量的20倍还要多。2012年全球只有不到1%的移动用户使用4G网络,但4G用户产生的数据量已经占移动数据流量的14%。随着中国这个全球最大智能手机市场对4G网络的推进——最近国务院总理李克强已经发话,年内将推动内地4G牌照的发放——移动设备将在未来一二年带来数据井喷。
数据量并不等于大数据,不过如果没有足够多的数据,大数据的“大”也就名不符实。我发在纽约时报中文网的《大数据时代》书评中粗暴的将大数据定义为很多很多的数据(IT术语日益增加且越来越玄乎,得为读者减负不是),而事实上,“大量的数据”(即“Volume”)只是大数据定义的一部分。一般而言,大数据还包括另外三个V:Variety(种类多样),Velocity(速度)以及远远未被充分认识及挖掘出来的最重要的V:Value(价值)。如果说前三个V是大数据的特征,那么最后一个V则是我们认识和理解大数据的目的。大数据挖掘的过程,就是高效收集、存储,并且管理、分析以及从中提炼价值的过程。数据无论大小,如果不去利用,那么它就是一文不值。——反而占据资源,提高成本。
以往PC时代,数据量更多发生在人与机器之间,即通过人主动操作生产的数据占主要部分。而移动时代的特点是,机器之间交流产生的数据占比将越来越多。比如过去一年以来开始流行的可穿戴式设备,比如Fitbit、Nike Fuelband、Pebble以及Google Glass甚至未来可能出现的iWatch,这些机器将制造越来越多的数据——记录你走路的步数,心率,睡眠质量,并自动与你的iPhone连接,在网络环境下传输到服务器,当你打开其它智能机器,这些数据又会再同步到你的电脑和平板上面。在整个量化自我的过程中,如果你还像我一样喜欢将个人数据都保存在Evernote上的话,仔细算算,这个过程将增长多少倍的数据量?人的时间和精力有限,几何级的数据增长,未来将发生在机器与机器通讯之中。
移动时代的入口在越来越小,应用一方面碎片化,另一方面各个碎片应用之间的功能连接度与数据互通程度也越来越紧密,互相依存、相互融合的趋势增加,这也为互联网带来更多式数据。相比于小数据时代的结构化数据,人们在更多碎片式应用中制造更多非结构化的数据。而如何从大数据中开采出更有价值的数据——用户行为,将是互联网服务商的下一个重要课题。