程序员语言·翻译@IT·互联网

译|《经济学人》——未来的能源:大数据

2017-05-27  本文已影响0人  琴鸣

信息催生了一种新经济,这一切是如何形成?

石油精炼厂像是工业领域的总教堂,是一个充满权力、戏剧性和黑暗阴影的地方:突出的塔柱是它的哥特式尖塔,弥漫的气体是它的彩色玻璃,碳氢化合物的臭气是它让人陶醉的焚香。与之相反,数据中心没有那么壮观的景象:它是没有窗户的灰色建筑,既不高,也没有装饰,似乎延伸到无限。

然而这两者又有诸多共同点。第一,两者都充满了管道。在炼油厂,这些管道收集加热分离出来的汽油、丙烷和其他原油成分。在大型数据中心,管道则用于向成千上万的计算机输送空气,这些计算机从原始的数字信息中提取价值——包括模式、预测以及其他深刻的分析结果。

两者又都充当同样的角色:为世界经济生产关键的原料。没有原油提取物,不管是汽车、塑料还是多种药品,很多现代生活用品将不会存在。对应的,数据中心提取的数据,支持了各种网络服务,并且随着越来越广泛的设备连接,对真实世界的影响日益增长。

数据之于本世纪,就像石油之于上世纪:它是发展和改变的动力。数据已经产生了新的基础设施、商业领域、垄断机构、政治理论,最关键的是,还产生了一种新经济。数据信息不像过去的其他资源,它采用不同的方式提取、加工、估值和交易。它改变了市场规则,要求使用新的管理方式。未来,很多战争将围绕谁应该拥有数据和从数据中获利展开。

这一领域还存在大量的争议。市场研究公司IDC预测,到2025年,“数字宇宙”(每年产生和复制的数据)将达到180zb(180后有21个零),利用宽带连接抽取这些数据需要4.5亿年。为了加速数据向数据中心传输,拥有快速扩张的云计算武器的电子商务巨头亚马逊,使用卡车来拉存有100pb(不过15个零)数据存储设备的集装箱。为了处理这些数据,各公司加速建设数据处理部门。根据华尔街日报,2016年,亚马逊,Alphabet(谷歌的母公司)和微软仅在资产购买和租赁上,一共花费了近320亿美元,比去年增长了22%。

数据的质量也有所变化。它们不再以存储数字信息为主——如姓名、年龄、性别、收入等结构化个人数据的数据库。新的数据经济更多关注的常常是非结构、实时数据流的快速分析,如社交网络用户产生的照片和视频流,上班族通勤途中产生的数据,飞机发动机中上百个探测器产生的大量数据等。

从地铁、风力涡轮机、马桶到烤箱,各种设备都成为了数据的来源。世界充满了互相连接的探测器,人们无论去哪里,身后都留下一条数字轨迹,即使他们并没有连接互联网。正如Oracle 大数据战略家、软件生产者Paul Sonderegger所说:“数据将成为最基本的客观产物,无论做什么,我们都在产生数据。”

这是你知道的


最重要的是,数据价值在不断增长。最初,脸书和谷歌将从用户收集来的数据用于精准营销,但是近年来,他们发现,数据可以产生大量的人工智能(AI)或“认知”服务。其中一些将成为新的收入来源。这些服务包括翻译、图像识别以及通过分析个人的写作风格来评估个性等,所有这些都可以卖给其他公司,以便在产品中使用这些服务。

尽管数据经济的迹象无处不在,它的形象却是最近才清晰起来。有很多数据专家、越来越多的投机者以及大量公司都在尝试参与进来,开发名为“数据网络效应”的强大经济引擎——利用数据吸引更多的用户,从而产生更多的数据以提升服务,又反过来吸引更多用户。

拥有最丰富的资源将产生最大的效益。例如,越多用户通过写评论和点赞等方式在脸书上互动,脸书从用户身上也就学得越多,广告投放也越精准。类似的,越多人使用谷歌搜索,它的搜索结果也越精确。

这些公司总是在寻找新的信息来源。脸书通过用户来训练它的一些算法,如用户上传照片,为朋友的照片打标签时。这解释了为什么脸书现在能够以98%的准确度识别成百上万的人。谷歌名为“助手” 的电子管家,使用得越多,在完成任务和回答问题时表现越好。

对于Uber,最为知名的则是能便宜的打车。但是如果这家公司估值680亿,部分也是因为其拥有最大的个人交通供方(司机)和需方(乘客)数据池。类似的,对大多数人来说,特斯拉制造时尚的电动车,但这家公司最新的模型收集了大量数据,用以优化其自动驾驶算法,并且以此更新软件。截至去年底,这家公司收集了13亿公里的驾驶数据——数量级比Alphabet的自动驾驶汽车公司Waymo还要大。

“数据驱动”的创业者们是这场新经济的投机者:他们勘探数据原油,提取出来,并转化为聪明的新服务,从分析X光和CAT扫描,到决定一片区域中的灭草剂喷射处。一家以色列创业公司Nexar设计了一种聪明的将驾驶员作为数据来源的方法。它的app将驾驶员的智能手机变为了行车记录仪,通过他们的驾驶行为记录其行程。如果很多人意想不到的在路上的同一个地方踩了刹车,这就意味着路上有坑或者其他的障碍物。作为使用Nexar的app的补偿,驾驶员能够得到免费的行车记录仪和服务,比如,如果发生一起事故,驾驶员可以得到一份详细的报告。这家公司的目标是提供多种服务帮助驾驶员避开事故,驾驶员和他们的保险承保方将会愿意为此付费。路面有坑或经过视角盲区时突然停下的提醒就是此类服务中的一种。

非科技类公司也在尝试涉入数据领域。例如,美国通用电气公司建设了“工业互联网的操作系统”Predix,用于帮助顾客控制机器。Predix同时也是一个数据收集系统,它从与之相连的设备中提取数据,将其与其他数据混合,用于训练算法,计算在发生故障时何时需要维持飞行引擎,以提高电力工厂操作过程效率等。

同石油市场一样,大的数据公司不断吞并较小的公司。但是数据经济的另一方面和石油交易却有所不同。石油是世界上交易最多的商品。与之相反,数据基本没有任何交易,至少不是用金钱来交易。人们将数据形容为“新的资产种类”——这是达沃斯论坛组织者cum智库世界经济论坛(WEF)2011年发表的一项报告中提出的名称——与人们心中所想有很大不同。数据经济这个名称暗示其由繁荣的数据市场组成,但实际上,它大部分只是由独立的数据仓库组成。

不要对外提供


缺乏市场与产生公司的原因相同。市场上各种“交易成本”——寻找信息,商业谈判,合同实施等等——使得将这些行为变为内部行为成为更简单有效的方式。类似的,在公司内部产生和使用数据常常比在公开市场上买卖数据更有利可图。

数据的丰富并不持久,数据流不是商品:每一股信息流在时效性或完备性上都是不同的。用经济学术语来说,这种缺乏“替代性”使买家难以找到特定的数据集并为其定价,每一类数据的价值都很难与其他数据相比,这不利于交易,因为每一方都会担心自己利益受损。

目前,研究人员刚刚开始建立定价方法,顾问Gartner称之为“信息经济学”。圣地亚哥加州大学的Jim Short作为一名先锋,研究了数据估值的一些案例,其中一项涉及凯撒娱乐一家从事赌博的子公司在2015年申请破产,这家公司声称其最有价值的资产——估值10亿,是它过去17年来掌握的4500万忠实客户数据。

一家公司会认为,即使只是对另一家公司的数据感兴趣,买下这家公司也是更为简单的方式,难以定价是重要原因。正是基于这样的考虑,2015年,IBM宣布花20亿美元买下气象公司,以便获得大量的气象数据而无需购买设备重新收集。另外一种类似的项目是数据交换协议,英国国家健康服务的部分机构,和Alphabet的人工智能部门深蓝,已经达成协议,可以互相使用对方的匿名病人数据,以便从中进行医疗领域的深度分析。

事实上,数字信息不像原油,是“非排他性”的。这意味着数据能够同时被多人(或算法)复制和使用,这进一步增加了交易的复杂程度。因为数据能轻易的用于协议之外的其他目的。并且也使得界定谁拥有数据变得更难。比如自动汽车,数据拥有者可以是汽车制造商,感应器供应商,乘客,甚至如果自动驾驶汽车成为自有物品,还可以是汽车本身。

Gartner 的Alexander Linden 说,“数据交易十分乏味”。因此,数据交易常常是双边和临时的,并且不适合胆小者:数据合同常常大篇幅使用法律术语,用以详细说明允许的使用范围及如何保护数据。最近,一家大银行的高层管理人员告诉Linden,比起签署这样的文档,他有更好的事情可做,即使这些数据具有巨大的价值。

对于个人数据,事情就更棘手了。纽约大学的Kenneth Laudon在1996年一篇题为“市场和隐私”的很有影响的文章中写道,“一个有效管理的国家数据市场可以允许个人信息的买卖,授予卖方决定在多大程度上暴露数据的权力”。更近一些,WEF提出了数据银行账户的概念,它建议,一个人的数据应该“储存在一个账户中,以便对其控制、管理、交换和解释”。

这个主意看上去很好,但是目前,无论是数据市场还是数据账户都没有实现。问题在于与之相对的公司数据:人们为了交换免费服务,很轻易的就会给出个人数据。 微软研究院的经济学家Glen Weyl 说,数据交易开展基本是偶然发生的。在21世纪初的互联网泡沫破裂后,公司急需一种赚钱的方式。为精准营销收集数据成为最快的方式。直到最近,他们才意识到数据可以转变成任意数量的人工智能服务。

算法的奴隶


使用数据来交换免费服务是否是不公平的交换,很大程度上取决于这些服务价值的源头:是数据还是处理数据的算法?谷歌首席经济学家Hal Varian认为,数据呈现“规模递减效应”,意味着每增加一条数据,价值越来越小,直到某一个临界点,收集更多的数据并不会带来额外效益。他说,更重要的,是处理数据的算法质量,以及一家公司建立算法的团队能力。谷歌的成功“是因为菜单,而不是原料”。

在早期的在线搜索时代,这个观点可能是对的。但在这个大胆的人工智能新世界,这看起来是错误的。算法正日益变得能够自我学习——提供的数据越多越新,算法学习得越好。Weyl说,随着应用的增加,数据的边际效应实际上也会不断上升。一家打车公司在收集足够的数据后,就可以提供实时交通信息这样的服务。更多数据也许不会带来更多价值,但持续收集数据,达到某个时点,就可以提供更多的服务,例如路线规划等。

诸如以上的争论,以及缺乏繁荣的数据市场等,可能是暂时的问题。运作良好石油市场的出现经历了几十年。讽刺的是,正是19世纪末John D. Rockefeller创建的垄断的标准石油公司,加速了规范的石油市场的形成,它帮助创造了技术,以及使新的资源得以交易成为可能的标准——这家公司的名称正说明了这一点。

对于高价值或易于标准化的个人数据,市场早就存在。所谓的“数据经纪人”对某些类型的数据进行快速的交易。在其他领域,市场或类似市场的机制正开始形成。例如,企业数据库市场的领军者Oracle,正在开展的等同于数据资产交换。它希望用户交换数据,并将其与Oracle提供的集合结合以提取分析结果,所有这一切都在Oracle公司的云计算安全环境中进行,至少能够保证数据不被滥用。一家创业公司认知逻辑推出了一个类似的产品,但是将数据保留在分离的IT系统中。

其他创业公司希望通过数据给顾客提供更多服务。Citizenme使用户可以将他们的线上信息整合到一处,如果用户选择将这些信息分享,还可以得到一小笔奖金。另一家创业公司Datacoup销售基于个人数据的分析结果,并将收入的一部分与用户共享。

到目前为止,这些尝试都还没有真正大量应用,那些专注于个人数据的公司也可能永远也不会这样做。截至目前消费者和互联网巨头面临一个尴尬的局面。卡内基梅隆大学的Alessandro Acquisti 说,人们不知道他们的数据价值,他们也并不想承担管理这些数据带来的麻烦。人们同时还表现出“习得性无助”的症状,享受服务的条件常常是必须接受的,用户没有其他选择(如果不点击“我同意”,智能手机app马上就会退出)。

因此,互联网公司对于免费的数据“上了瘾”,他们没有兴趣根本的改变与用户这样的交易。为数据付费,建设昂贵的系统记录个人贡献值,都会压缩数据处理的利润空间。

数据不会是唯一没有广泛交易的重要资源,类似的还有无线波谱和用水许可。Weyl认为,但是对于数据来说,这会造成效率低下。如果数据没有价格,有价值的数据可能永远也不会产生。而且如果数据总是存储在仓库里,其中大量的价值可能永远不会被发现。大数据处理公司不可能垄断创新,其他公司也可能更好的开发数据。

数据的缺乏市场也会使解决棘手的政策问题更为困难。主要包括三个方面:反垄断,隐私和社会平等。按常理,最为紧迫的问题是反垄断——正如在石油领域一样。1911年,美国高级法院维持了下级法院的判决:分解标准石油公司,当时该公司已控制了美国大约90%左右的石油精炼市场。

有一些人已经开始呼吁分解谷歌这样的公司,这其中包括南加利福利亚大学的Jonathan Taplin和他的新书《快速行动,打破一切》。但是这样激进的补救方式并不会真正解决问题。公司分解可能具有高度的破坏性,并阻碍创新。并且一个googlet或Babyface很可能迅速再次垄断。

然而要求行动的呼声越来越高。牛津大学的Ariel Ezrachi 和田纳西大学的Maurice Stucke 最近出版了一本名为“虚拟竞争”的书,其中说道,“超级平台”聚集了太多的权力,拥有比别人更多和更及时的数据,这些大公司可以迅速的发现竞争威胁。它们雄厚的财力可以买下日后可能成为竞争对手的创业公司。它们也可以操纵以它们为主的市场,例如,迅速的调整算法,使竞争者没有机会以更低的价格获得消费者。Ezrachi说,“看不见的手已变成了数字手”。

当心数字手


在信息化时代,至少反垄断机构需要更新工具。欧洲委员会没有阻止脸书和WhatsApp的并购,它认为,尽管这是两家最大的文字信息服务公司,但其他还有很多家类似公司,并且这项交易也不会增加脸书的数据积累,因为WhatsApp没有收集很多关于用户的数据。但是脸书购买的是一家它担心会成长为强大对手的公司。它构建了可选的“社交图表”,展示朋友关系的网状图,这是脸书最有价值的资产。在并购程序审批过程中,脸书承诺不会合并两家公司的用户基础,但是去年它正在这么做,这导致委员会对其处以罚款警告。

处理脸书并购项目上的失败有助于解释为什么一些欧洲国家开始修订竞争法。在德国,立法机构正在推动议会允许联邦卡特尔办公室干预涉及网络效应和数据资产的案例。这家机构已经对数据经济有了特别的兴趣,它启动了一项调查,针对脸书是否滥用其市场支配地位,以便绕开特定的隐私政策。联邦卡特尔办公室主任Andreas Mundt想要做到更多,“我们能够进一步优化我们的调查技术吗?我们如何能够将动态效果与我们的分析结合?”

一条基本的规则是,管理者要像他们所监管的公司一样富有创造力。最近Messrs Ezrachi和Stucke发表的一篇论文提出,反垄断的官方机构应该实行他们称之为“默契合谋孵化器”,以发现价格算法是否操纵甚至密谋市场。管理者应该在他们自己的电脑上运行模拟。

另一个想法是避免数据过度集中,政府可以公开更多他们收集的数据,为小公司提供机会。政府也可以支持“数据合作”。在瑞士,一个名为Midata的项目从患者收集健康数据,患者可以决定是否希望参与到研究项目中。

分配数据


对于某些关键类别的数据,甚至可能需要强制共享。出版了业务通讯《聚合理论》的Ben Thompson最近建议,应该要求主流的社交网络允许访问其社交图表。被脸书合并的一个照片分享的服务Instagram,通过要求新用户输入他们在推特上的关注者名单,取得了新进展。Thompson指出,“很久以来,社交网络使这变得不可能,使竞争者崛起变得更加困难”。

强制数据共享也不是闻所未闻,德国要求保险公司共同维持一系列统计数据,包括车祸数据,这些数据小公司靠自己难以收集。欧盟新的通用数据保护管理规定(GDPR)将于2018年5月起生效,要求在线服务提供方便的途径使客户将信息转移到其他服务提供商,哪怕是竞争对手。

但是“数据可携带性”和数据共享类似,重点关注第二条政策问题:数据市场和隐私之间的冲突关系。如果个人数据用于交易和分享,也更可能会泄露。为了降低这种风险,GDPR加强了人们对于其数据的控制,它要求公司对于如何使用数据获得明确的同意。违反规定的罚金将会十分高昂,最高可达全球营业收入的4%,或2千万英镑(约合2200万美元)。

在一个数据流互相混合和关联的世界,这样的规定很难执行。而且还产生新的矛盾:更为严格的数据保护和更多的竞争。公司更大意味着遵从昂贵的隐私管理规定,这同时也使大公司更牢固的控制了数据。

在新技术时代,一些可能减缓这些矛盾的简单的、易于撤销的匿名化处理也不够用了。另一家创业公司Bitmark,使用与一种数字货币比特币同样的“区块链”技术,来跟踪曾经取得数据的人。牛津大学的ViktorMayer-Schonberger说,即使如此,法律上的创新也是必不可少的。他和其他一些数据专家主张,不仅数据的收集,数据的使用同样应该被管理。正如禁止食品制造商使用某些特定原料一样,也应该禁止互联网公司使用某些特定数据,或者禁止其以可能危害到个人的方式使用数据。他认为,这将使数据收集者和使用者对如何管理数据负责,而不仅依靠获得个人的同意。

目前主导着收集什么数据以及如何使用数据的,是传统的通知和同意方式,相比之下,这样“基于使用”的规定对于警方来说同样困难。而且这也可能恶化有些人认为的目前形式下数据经济的第三大挑战:一些人比另一些人得益更多,不管从社会方面还是地理方面。

至少对于个人数据,当前的模式看起来很难持续。随着数据价值日益增长以及数据经济日益重要,数据处理公司会获得所有的利润。那些数据产生者将被不平等交换所困,只能得到免费的服务。第一个指出这一点的是Jaron Lanier,在他的2014年出版的书中《谁拥有将来?》。他也为微软研究院工作。

Weyl正在与Lanier合作写作一本书,这本书是关于与芝加哥大学的Eric Posner一起复兴自由经济学。在这本书中,提出了上述论点的另一个版本:最终,人工智能服务不是由算法,而是由产生原始数据的人们提供的。Weyl 说:“数据就是劳动力”,他正在建设一个可以衡量个人数据贡献价值的系统,以便为更公平的交易奠定基础。

全世界的数据工作者,联合起来!


Weyl说,问题在于让人们理解,他们的数据是有价值的,他们理应得到补偿。“我们需要某种数据劳动运动”,他说,需要更多的说服力才能使“大型服务器”——Lanier对数据巨头的称呼——改变它们的方式,因为它们从现在的情况获得了巨额利润。

对于数据提取而来的价值,要实现更平等的地理分布就更难了。目前,大多数大数据处理公司都在美国或由美国公司控制。随着数据经济的发展,这也很难持续,过去美国和欧洲间关于隐私权的冲突预示了这一点。在中国,一项管理草案要求公司将所有收集到的“关键数据”存储在国内服务器上。关于控制石油的冲突几十年来使世界伤痕累累,还没有人担心为了争夺数据的战争,但是数据经济有同样的潜力引发对抗。


译者注:本文选自《经济学人》(2017年5月6日),翻译水平有限,如有不当,欢迎指正。

“本译文仅供个人研习、欣赏语言之用,谢绝任何转载及用于任何商业用途。本译文所涉法律后果均由本人承担。本人同意简书平台在接获有关著作权人的通知后,删除文章。”

上一篇下一篇

猜你喜欢

热点阅读