区块链+机器学习，能突破数据的垄断，做可控的“摩洛克”吗？

2018-03-17 本文已影响10人智能观

通过来自区块链市场的数据，训练出来的机器学习模型，有可能创造出世界上最强大的人工智能。

它们将两种原语的天然优势结合起来:私有机器学习——允许对敏感的私人数据进行训练，而不会泄露私人数据；基于区块链的激励机制——这使得这样的系统能吸引最好的数据和模型，使系统变得更聪明。

其结果是面对开放式的市场，任何人都可以出售他们的数据，并同时保持数据的私有权，而开发人员可以利用激励机制得到算法的最佳数据。

构建这样的系统是很有挑战性的，而所需的构建块仍在创建中，但是简单的初始版本看起来已经初具规模了。我相信通过市场化，会让我们从web2.0的数据垄断时代过渡到Web 3.0——数据和算法公开竞争的时代，而这两者（数据和算法）都是直接货币化的。

1.起源

这一思想的基础，来源自Numerai公司的创始人Richard在2015年的一次谈话。

Richard

Numerai公司是一家位于旧金山的，AI运营的众包对冲基金。它向任何想要进入股票市场的数据科学家发送加密的市场数据。Numerai将最好的模型提交到一个“元模型”中，然后交易元模型，并对所提供模型表现良好的数据科学家给予奖励。

有数据科学家的参与似乎让这件事变得很有前途。所以这让我思考:能创建出一个完全去中心化的版本么？构建的系统可以解决任何问题吗?我相信答案是肯定的。

2.构建

例如，让我们尝试创建一个完全去中心化的系统，用于在去中心化的交换机上交易加密货币。这仅是许多潜在的建构之一。

数据：由数据提供者提供数据，并将其提供给建模人员。

模型构建：建模者选择要使用的数据并创建模型。数据训练是使用安全的计算方法完成的，该方法允许模型在不暴露底层数据的情况下进行训练。这样就确定了模型。

元模型构建：元模型基于每个固定模型的算法而创建。创建元模型是可以挑选固定模型的——您可以想象有很多模型没被合并到元模型中。

使用元模型：使用智能合约，将元模型和交易通过去中心化的交换机制在链上进行编程。

分配收益/损失：经过一段时间后，交易产生利润或亏损。这种利润或损失，是根据元模型中固定模型提供者的贡献来分配的，这取决于他们在元模型中做出多少智力贡献。造成负面贡献或亏损的模型也按拟定的比例分配，然后分摊到他们的数据提供商身上。

可验证的计算：每个步骤的计算既是集中式的，又是可验证的，可以在Truebit上进行验证，或者使用安全的多方计算验证。

托管：数据和模型要么托管在IPFS上，要么托管在安全的多方计算网络中，因为链上存储成本太高。

3.是什么让这个系统如此强大？

吸引全球最佳数据的激励机制：吸引数据的激励机制是系统中最有效的部分，因为数据往往是大多数机器学习的限制因素。同样的，区块链通过开放的激励机制创造了一个世界上最具计算能力的新兴系统。一个合理的数据激励结构，将会为你的应用程序带来世界上最好的数据。而且，要想关闭一个数据来自数千或数百万个来源的系统，几乎是不可能的。

算法之间的竞争：它允许创建模型/算法之间的公开竞争。你可以在头脑中想象一下，一个去中心化的Facebook与使用数千种新闻推送程序的算法之间竞争的激烈场面。

透明的奖励：数据和模型提供者可以看到他们取得的公平的价值奖励，因为所有计算都是可验证的，这可以使他们更加积极地参与。

自动化：在链上直接生成值并在令牌中直接生成值创建一个自动化的、不受信任的闭环。

网络效应：来自用户、数据提供者和数据科学家的多方网络效应,使系统自我增强。它表现得越好，吸引的资本就越多，这就意味着你更多的潜在支出，会吸引更多的数据提供商和数据科学家，他们会让系统变得更聪明，从而吸引更多的资金，形成一个良性循环。

4.隐私

除了以上几点，还有一个主要的特点就是隐私问题。

1.它允许人们提交数据，否则数据过于私密将无法得到共享。

2.防止数据和模型的经济价值泄漏。如果在未加密的情况下开放，数据和模型将被免费复制，并被其他没有做出任何贡献的人使用(即“搭便车”问题)。

对“搭便车”问题的部分解决办法是私下出售数据。即使买家选择转售或公开发布数据，其价值也会随着时间而衰减。但是，这种方法会使我们的产品在短时间内的使用率降低，并且仍然会造成典型的隐私问题而无法推广。因此，更复杂但更强大的方法是使用安全计算的形式。

5.安全计算

安全的计算方法允许模型对数据进行训练，而不泄露数据本身。

目前使用和研究的安全计算有三种主要形式:同态加密(HE)、安全多方计算(MPC)和零知识证明(ZKPs)。MPC目前最常用于私有机器学习，因为HE的速度太慢，如何将ZKPs应用于机器学习方面也没有取得明显的进展。

安全计算方法正处于计算机科学研究的前沿。它们通常比常规计算慢几个数量级，这是系统的主要瓶颈，但近年来一直在改进。

6.终极推荐系统

为了说明私有机器学习的潜力，你可以想象一个名为“终极推荐系统”的应用。它监视你在设备上所做的一切:浏览历史、在应用程序中的行为、手机上的图片、位置数据、消费历史、可穿戴传感器、短信、家里的摄像头、VR眼镜，等等。然后它会给你一个建议:你应该访问的下一个网站、应该阅读的文章、喜欢听的歌曲，或者愿意购买的产品。

这个推荐系统将是非常有效的。其拥有的数据量比谷歌、Facebook或其他任何现有的数据都要多，因为它对你来说，能够给你提供一个最大的纵向视野，它可以在数据中自我学习，不然数据过于私密的话，就无法考虑共享问题了。它有些类似于以前的cryptocurrency交易系统。通过经你许可的针对不同领域(如网站建议、音乐)的模型市场的竞争，它可以访问你的加密数据并向你推荐东西,甚至还可能为你贡献的数据付钱，或者对你关注的问题给一些建议。

谷歌的联合学习和苹果的差异隐私，在这个私有机器学习方向迈出了第一步，但仍然需要信任机制，因为他们不允许用户直接检查他们的安全性，而保持数据的独享。

7.目前的方法

这是一个早期的东西。很少有团队合作的情况，大家都是各自为战。

来自Algorithmia Research的一个简单结构将模型的精确度设置一个阈值，并为超过阈值者提供一定的赏金。

关于计价问题，目前采取了三个步骤:

1.它使用加密数据(虽然不是完全相同的)。

2.它将众包模型整合到一个元模型中。

3.它根据产品未来的性能(在本例中是一个星期的股票交易业绩)来奖励模型提供者，而不是以本地的Ethereum令牌作为计价单位。

数据科学家必须把股权计价作为项目中的基本要素，激励大家的创新能力(指未来的表现)，而不是发挥目前的能力(现有的表现)。然而，由于目前的数据是集中分布的，这有些限制了那些重要数据的活力。

目前还没有人建立一个成功的基于区块链的数据市场。海洋协议（去中心化的数据交换协议）是一个初步的尝试。

还有一些是通过建立安全的计算网络开始的。Openmined正在创建一个多方计算网络，用于训练机器学习模型，该网络可以在任何设备上运行，包括游戏控制台，然后扩展到安全的MPC上。Enigma也有类似的策略。

最让人着迷的最终状态是相互拥有的元模型，它记录了数据提供者和模型创建者的所有权，其权重与他们提供的智力成果成正比。这些模型会被标记出来，随着时间的推移会产生回报，甚至可能会被那些训练它们的人管理着。这是一种相互拥有的蜂群思维。最初的Openmined视频里介绍的是迄今为止我所见过的最接近的。

8. 哪些方法可能首先奏效?

我不会说自己知道什么是最好的构造，但我有一些想法。

我在用来评估区块链思想的一篇论文里是这样说的:对那些数字原住民类人群在区块链上的交流来说，区块链上的人越多越好。区块链上的本地语言越少，就会越多地得到第三方的信任而被第三方引用，随着复杂性的增加，减少使用其他系统作为构建块能极大地方便大家的使用。

在这里，我认为这意味着，如果创建的价值是可量化的，那么系统更有可能被使用——最好是直接以金钱的形式，最佳的方式就是令牌。这是一个干净的闭环系统。

将加密货币交易系统的前述例子与一个用x射线鉴别肿瘤的方法进行比较。在后者中，你需要说服一家保险公司，告诉他们x射线模型是有价值的，并协商如何确定这个价值，然后，在取得信任的一小群人身体上验证这个模型的成功与失败。

但这并不是说，在数字化的社会中，那些起积极作用的正和游戏不会出现。像前面提到的推荐系统就可能非常有用。如果应用到管理市场上，则是另一种情况，模型可以以编程方式在链上采取动作，系统的奖励是令牌(这个例子来自管理市场)，可以再次创建出一个干净的闭环环境。现在似乎还不太清楚，但我希望区块链本地任务的领域会随着时间的推移而扩展。

9.启示

首先，分散式机器学习市场可以消除目前科技巨头的数据垄断。在过去的20年中，他们利用专有数据网络及其强大的网络效应，将互联网上主要价值创造的源头标准化和商品化。其结果就是，价值创造从数据转移到了算法上。

换句话说，首先，他们为人工智能创造了一个直接的商业模式来训练它。

其次，他们创造了世界上最强大的人工智能系统，通过直接的经济激励吸引了最好的数据和模型。他们的力量通过多方面的网络效应而增加。随着Web 2.0时代的数据网络垄断变得商品化，他们似乎是下一个技术力量的优胜者。而我们可能还需要几年时间的努力，但我们这样做的方向似乎是正确的。

第三，正如推荐系统的示例所示，搜索是反向的。不再单单是人们寻找产品，更多的是产品利用数据去寻找需要它的人(这属于设计这个框架的Brad的功劳)。每个人都可能有个人的喜好市场，推荐系统通过竞争将最相关的内容放在他们的数据中，而相关性是由个人设定的。

第四，机器学习允许我们在谷歌和Facebook等公司使用的强大的机器学习服务中获得同样的好处，而不会泄露我们的数据。

第五，机器学习可以更快地发展，因为任何工程师都可以进入一个开放的数据市场，而数据不再被大型公司的一小部分工程师所独占。

10.挑战

首先，安全计算方法目前发展非常缓慢，机器学习的计算成本已经很高。另一方面，人们对安全计算方法也越来越感兴趣，安全计算的性能也在不断的提高。我看到了过去的6个月内，HE、MPC和ZKPs的性能改进有了新的方法。

计算特定数据集或模型提供给元模型的值是很困难的。

清理和格式化众包数据具有挑战性。我们很可能会看到一些工具，利用标准化和小企业的组合来解决这个问题。

最后，具有讽刺意味的是，创建这种系统的广义构造的商业模式不如创建个体实例那么明确。这似乎需要很多新的加密原语，包括管理市场方面。

11.结论

私有机器学习与区块链的激励机制相结合，可以在各种应用中创造出最强大的机器智能。随着时间的推移，可以解决重大的技术挑战。它们的长期潜力是巨大的，并且可以打破大型互联网公司对数据的掌控，因此颇受欢迎。

但是，它们也有点可怕——它们引导自己进入现实世界，自我加强，使用私人数据，并且一旦运行起来几乎就不可能关闭，这让我怀疑创造它们是否召唤出了更可怕的摩洛克。然而不管怎样，它们是加密货币将逐步进入每一个行业的又一例证。

作者简介：

Fred Ehrsam现任美国比特币交易所Coinbase 董事，曾是高盛知名交易员，毕业于杜克大学计算机科学专业。

原文链接：

https://medium.com/@FEhrsam/blockchain-based-machine-learning-marketplaces-cb2d4dae2c17

来源：Medium

作者：Fred Ehrsam

智能观编译

—完—

亲爱的朋友：

读完这篇文章，你有什么感想？

我脑海中出现两幅画面。一幅是欢喜可控的，一幅是恐怖失控的。

如作者所说，不管怎样，科技的脚步终究是不会停止的。或许我们能做的，就是努力实现可控，避免失控。而这，需要我们每个当下的参与者去思考与努力。

安！

智能观一米

2018-3-17 于北京中关村

想知道AI加教育领域有哪些最新研究成果？

想要AI领域更多的干货？

想了解更多专家的“智能观”？

请在对话界面点击“找找看”，去获取你想要的内容吧。

声明：

编译文章旨在帮助读者了解行业新思想、新观点及新动态，为原作者观点，不代表智能观观点。