大数据时代
引言 一场生活、工作与思维的大变革
大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。
这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。
第一部分 大数据时代的思维变革
大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。
一、更多:不是随机样本,而是全体数据
随机采样能更快更容易地发现问题,但它本身存在缺陷:它的成功依赖于采样的随机性,它不适合考察子类别的情况,也不能回答事先未考虑到的问题。大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。
二、更杂:不是精确性,而是混杂性
对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。数据量的大幅增加会造成结果的不准确,一些错误的数据也会混进数据库。这里面包含了更多的数据,不仅能抵消错误数据造成的影响,还能提供更多的额外价值。值得注意的是,错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。
三、更好:不是因果关系,而是相关关系
建立在相关关系分析法基础上的预测是大数据的核心。通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解这个世界。
第二部分 大数据时代的商业变革
数据化:一切皆可“量化”
数据化是指一种把现象转变为可制表分析的量化形式的过程。数字化指的是把模拟数据转换成用0和1表示的二进制码,这样电脑就可以处理这些数据了。数字化带来了数据化,但是数字化无法取代数据化。
价值:“取之不尽,用之不竭”的数据创新
数据创新1:数据的再利用
数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。
数据创新2:重组数据
有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
数据创新3:可扩展数据
收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始就考虑到各种潜在的二次用途并使其具有扩展性是非常有意义的。
数据创新4:数据的折旧值
随着时间的推移,大多数数据都会失去一部分基本用途。然而,并非所有的数据都会贬值。即使数据用于基本用途的价值会减少,其潜在价值却依然强大。
数据创新5:数据废气
“数据废气”用来描述人们在网上留下的数字轨迹。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有服务或开发新服务。
数据创新6:开放数据
开放数据的倡导者主张,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用会比政府更具有创新性。他们呼吁建立专门的官方机构来公布民用和商业数据,而且数据必须以标准的可机读形式展现,以方便人们处理。
角色定位:数据、技术与思维的三足鼎立
根据所提供价值的不同来源,出现了三种大数据公司。
第一种是基于数据本身的公司。这些公司拥有大量数据或者可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但不一定拥有数据或提出数据创新性用途的才能。
第三种是基于思维的公司。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据新价值的独特想法。
大数据成为许多公司竞争力的来源,从而使整个行业结构都改变了。大公司(掌握大量数据)和小公司(固定资产少,运行成本低)最有可能成为赢家,而大部分中等规模的公司则可能无法在这次行业调整中尝到甜头。
第三部分 大数据时代的管理变革
风险:让数据主宰一切的隐忧
我们的隐私被二次利用了
在大数据时代,不管是告知与许可(大数据的价值不再单纯来源于它的基本用途,而更多源于二次利用)、模糊化还是匿名化(随着数据量和种类的增多,大数据促进了数据内容的交叉检验),这三大隐私保护策略都失效了。
预测与惩罚,不是因为“所做”,而是因为“将做”
通过大数据预测对未来可能行为进行惩罚是对公平正义的亵渎,它否定了我们之所以为人的重要组成部分——自由选择的能力和行为责任自负。
数据独裁
我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。我们可能会形成一种对数据的执迷,仅仅为了收集数据而收集数据,或者赋予数据根本无权得到的信任,而数据远远没有我们所想的那么可靠。
掌控:责任与自由并举的信息管理
管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任
在大数据时代,数据的价值很大一部分体现在二级用途上,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。监管机制可以通过限制个人信息存储和处理的时间来保护个人隐私。这就是我们认为更适用于大数据时代的平衡:公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。
管理变革2:个人动因VS预测分析
身处大数据时代,我们必须拓宽对公正的理解,必须把对个人动因的保护纳入进来,个人可以并应该为他们的行为而非倾向负责。
管理变革3:击碎黑盒子,大数据算法师的崛起
大数据的运作是在一个超出我们正常理解的范围之上的。大数据预测、运算法则和数据库有变为黑盒子的风险,这个黑盒子不透明、不可解释、不可追踪,因而我们对其信心全无。为了防止这些情况的出现,大数据将需要被监测并保持透明度,这就催生出了“算法师”。外部算法师将扮演公正的审计员的角色,根据法律指令或规章对大数据的准确程度或者有效性进行鉴定。内部算法师在机构内部工作,监督其大数据活动。
管理变革4:反数据垄断大亨
为了促进大数据平台上的良性竞争,政府必须运用反垄断条例。
结语 正在发生的未来
大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。