加密货币的“社会结构”
本文原载自SophonEX Medium专栏
通过分析社交媒体/ 开发社区数据来甄选优质的加密货币

相似性很重要
随着区块链炒作持续升温,无数的加密货币应运而生,其中许多都声称自己是“下一个比特币”或“下一个以太币”。但是,如果新的加密货币确实具有这样的潜力,那么它在社交媒体和开发社区的历程也应该与那些主流币非常相似。查尔斯·达尔文曾经说过:“一个人的交友圈是他价值的最佳衡量标准之一。” 同样的原则也适用于加密货币。
怎样才能找到与比特币或者以太币等主流货币称得上“亲密朋友”的最佳加密货币呢?我们想到的是在社交媒体和开发社区中,首先收集大量此币种的不同维度的数据。接下来,我们可以使用这些数据创建一系列指标来衡量这些加密货币之间的相似性。最终,与主流货币最相似的那些被归类为有前途的货币,而那些不相似的就极有可能是价值最终化为乌有的垃圾货币。
量化加密货币之间的相似性
数据收集
加密货币具有大量的指标,例如每日交易量、每日波动率、推特粉丝数量等。在此次的研究中,我们将专注于社交媒体和开发社区两个方面的指标。我们会收集主要社交媒体的关注和互动的相关数据,包括 Twitter,Telegram 等。同时,我们还会跟踪开发社区活动,如 fork,star,issue 等的数量。我们总共收集了大约20个不同的指标。
定义相似性
由于我们关注的加密货币的各项指标是不同类型的(不同分布的离散和数值数据的混合)而且重要性各不相同,我们不能简单地用线性空间中使用的一些常规距离测量(例如欧氏距离)来推导相似性。简单的测距可能会扭曲这些特征之间的真实的相对重要性。
因此,我们采用随机森林嵌入方法。这种方法可以有效的将原始异构数据映射到一个非常高维的稀疏表示。这种非线性嵌入保留了接近度,如果两个数据点在原始特征空间中非常相似,则它们倾向于被分类到每个随机树中的相同叶节点,从而他们形成的稀疏二进制向量具有非常短的汉明距离。 因此,我们可以简单地在这个转化为同质特征后的高维空间中计算两个稀疏向量之间的内积,把它作为相似性的度量。
创建相似度矩阵
在这个示例中,我们从超过 N = 4200 种不同的加密货币中收集数据,并将 20-D 空间扩展为 11,000-D 空间。如下图所示,这个 N×N 相似矩阵定义了一个高维图,两个货币之间的相似性越强,它们之间的边就越厚。为了揭示该图的结构,我们将这个 4200-D 图嵌入到 2-D 空间,从而可以分析并可视化所有货币之间的关系。由此,我们可以进一步分析哪些货币与比特币等优质货币更接近。

可视化币种之间的关系
二维嵌入和可视化
相似度矩阵虽然包含非常详细的币与币之间关系的信息,但是想直观理解这样的矩阵并不容易。因此,我们通过将其映射到二维空间来反映一些重要的信息,映射过程中我们尽可能地维持节点之间的相似度,即高维空间中的相似的点在 2-D 映射上的距离也更接近,反之亦然。
在许多可用的映射方法中,我们选择了 t-SNE 算法,下面是我们获得的 2-D 映射:

在上图中,我们根据 Twitter 粉丝的数量对点数进行着色。事实证明,所有的货币似乎都源于比特币,它位于所有币的最右侧。越靠近左下方的点对应的推特粉丝越少。假如我们的基本假设是“如果一种币与比特币的距离越小,它的价值和地位就越高”,那么,我们应该能够在比特币附近找到所有那些排名靠前的币。
与市值/成交量排名的交叉验证
把视角放大到比特币附近,如下图所示,我们确实发现了在排名网站 (Coinmarketcap 和Coingecko)上排名靠前的大多数的主流加密货币。考虑到我们达到类似的排名结果没有依赖任何交易/交易量相关数据,这说明了我们的基本假设从一定程度上是合理的。这两者的一致为我们使用社交媒体/开发社区数据对币进行排名的思路提供了有力支持。

意外之喜--潜在的主流币种
此外,我们可以使用上述映射方法找到一些比较有前途的新币,让一些鲜为人知的加密货币也进入视野。例如,在 Coinmarketcap 和 Coingecko(2019/03/22)上排名200+ 的新货币 Grin(GRIN)也出现在了比特币附近。尽管 Grin 的交易量仍然没有其他币种那么大,但 Grin 实际上拥有相当多的社区关注者并且已经被很多交易所支持,因此它能更快的被我们选取的特征发掘出来,而不是仅仅通过交易量和市值。我们很容易就能从上面的图表中发现它的特殊性。
诡异的“彗星”
这种 2-D 映射的形状展示了加密货币家族与彗星形状非常相似,其大部分质量集中在核心(比特币)上,而尾部则非常稀疏蓬松。虽然尾部看起来很大,但它的总质量却非常小。不幸的是,这恰恰说明在加密货币领域,在“彗星”尾部的大多数货币的未来非常黯淡。
并非所有特征都是平等的

上文中,我们利用推特粉丝的数量来着色,得到了很好的结果,即邻近点往往具有相似的颜色。这表明 Twitter 粉丝的数量是区分优质币和垃圾币的一个很好的特征量。但是,当我们使用 Telegram 用户的数量对这些点进行着色时,我们却看不到类似 Twitter 数据给出的模式。这组数据表明,可能由于营销活动和自动消息机器人在 Telegram 中使用的过于频繁,Telegram 用户数量并不是一个有效的甄选优质加密货币的指标。
以比特币为中心的排名系统
上文中的图形可视化为我们提供了以下两个可能的结论:
1. 根据其他币种与比特币的距离对加密货币进行排名是一个可行的选择
2. 为了评估某个加密货币的状态,我们可以在二维映射图中找到它们,看它们是“靠近核心”还是“在尾部”。
示例1:加密货币的排名

上表给出了通过两种方法测量加密货币与比特币的相似程度方法得到的排名,一种使用以 N×N 矩阵为特征的距离,另一种使用二维 t-SNE 图。事实证明,这两种方法的结果非常相似。
示例2:不同平台币的地位
另一个例子是将所有主流交易平台的平台币放在这个映射上,这样我们就可以看出所有这些币的“社会地位”。
事实证明,BNB 是最接近 BTC 的,确认了它作为最强平台货币的地位。 WAVES 非常接近 BNB。然而,其他平台币似乎并不像前两者那样有前途。除了 BNT,COB和 KCS之外,所有其他平台币都离彗星的“核心”很远。具有讽刺意味的是,一度表现突出的 FT,即 Fcoin 的平台币,位于尾部最远的部分。

结论
在本文中,我们应用随机树映射和 t-SNE 方法来对超过 4000 个加密货币的社交媒体/开发社区活跃度数据进行了可视化。从这些可视化图表中我们有如下观察:
加密货币家族形成了一个“彗星”模型,主流币种构成了一个密集的核心(比特币是核心的尖端),绝大多其他数币种组成了一个展开的尾巴。我们可以根据它们在这个“彗星”中的位置来定义每种加密货币的“社会地位”;
我们可以通过测量各个加密货币与比特币的距离来对它们进行排序,而且该排名系统已经通过和各币种交易量市值的排名比对得到了交叉验证。
算坊科技 Sophon Tech是一家技术驱动型公司,为数字货币软件和定量研究提供解决方案。
本文作者:H.Zheng; 译者:D. Zhao
法律免责声明:算坊科技 SophonTech 不是投资顾问,也不代表任何证券,基金,代币,衍生品,实物资产或任何其他投资工具。所有 算坊科技 SophonTech 材料均仅基于来自一般认为可靠来源的公共信息而创建,仅用于提供信息。所展示的数据和分析并不代表实际交易/ 投资结果。