NLP(二)学习《DeepWalk: Online Learni
0 介绍
DeepWalk把图作为输入,把生成的潜在表示作为输出。
DeepWalk通过随机游走获得结构规律。
1 问题定义
对社交网络的节点进行分类(1类或多类)。进一步,定义,V是网络节点的集合,E是节点之间的边的集合。。给定一个有标签的社交网络,它有属性,其中是每个属性的特征空间大小,,是标签的集合。
在传统的机器学习分类任务中,我们需要学习一个假设,使它可以把映射到集合中。现在,我们可以利用嵌入到图结构中的样本关系获得有意义的信息,进而获得更好的表现。
在文献中,这被称为关系分类。传统的方法把这个问题看作无向马尔可夫网络的推理问题,并且在给定网络结构的情况下,运用迭代近似推理算法取计算标签的后验分布。
我们提出一种不同的方法去网络的拓扑信息。不是把标签空间作为属性空间的一部分,我们提出一种无监督的方法可以得到具有捕捉网络结构能力的特征,并且它们与标签的分布是相关独立的。
我们的目标是学习,这里的是潜在维数的一个小小的子集。这些低纬表示是分布式的,意味着每种社交现象被这些维度的子集所表示,并且每一维对空间表示的社交观念的子集都有贡献。?
使用这些结构化的属性,我们就可以扩充特征空间,帮助进行分类决策。这些特征是通用的,可以用作任何分类算法(包括迭代算法)。因此,这些特征的最大好处就是易与简单的机器学习算法整合起来。
2 学习社交表示
我们学习的社交表示方法有以下特点:
- 可扩展性(Adaptability):新加入的社交关系不应该需要重复学习过程。
- 社区感知(Community aware):潜在维度的距离应该表示网络所对应成员的社交相似度。
- 低纬(Low dimensional):当标记数据很少时,低维模型通常会表现很好,还会加速收敛与推理。
-
连续(Continuous):我们需要潜在维度可以把样本映射到连续空间。除了可以细致地显示社区成员,连续的表示在社区之间有更加平滑的决策边界,这会有更鲁棒的分类效果。
我们通过连续的随机游走获得节点的表示,同时使用语言建模的最优化方法以满足以上需求。接下来我们回顾以下随机游走和语言建模方法,然后解释它们怎么结合以满足我们的需求。
2.1 随机游走(Random Walks)
我们定义随机游走的跟节点为。它是一个由组成的随机过程,是被随机选出的节点的邻居。随机游走作为一种相似度度量的方式应用于内容推荐和社区发现。
正是这种与本地结构的连接促使我们使用短随机游动流作为从网络中提取信息的基本工具。使用随机游走不仅可以获取社区信息,还有两个理想特性。第一,局部探索易于并行化。几个随机游走可以同时(在不同的线程,进程或者机器)挖掘同一图的不同部分。第二,依靠短随机游走获得的信息可以适应图中的微小变化,而不需要全局的重新计算。我们可以及时地在变化的区域的重新进行随机游走迭代更新学习模型,这对比更新整个图来说是次线性的。?
2.2 连接:幂律
在选择在线随机游走作为我们主要捕捉图结构的方法之后,我们现在需要一个合适的方法去捕捉这些信息。如果一个连接图的度分布服从幂律定律,我们观测得到节点在短随机游走出现的频率也会服从幂律分布。
幂律分布 我们工作的核心贡献是提出,过去用于自然语言建模的方法(符号频率服从幂律分布)也可以用于网络的社区结构建模。接下来将介绍自然语言建模,然后将其转化为学习节点表示,并使之满足我们的标准。2.3 语言建模
语言建模的目标是估计一串特殊的词出现在全集的可能性。正式地说,给定一串词其中(是词汇表),我们要在所有训练的集合中求出的最大值。
最近关于表示学习的工作聚焦在使用概率神经网络去建立通用的词汇表示,这超出了语言建模的原始目标的范围。
在这项工作中,我们通过短随机游走探索图,这展示了一种语言建模的一般化。这种直接的类比是在给定随机游走之前访问过的节点情况下,估计下一次要访问节点的可能性。
我们的目标是学习一种潜在的表示,而不是一个节点再现的概率分布,因此我们引入一个映射函数。这个映射函数表示途中每个节点之间潜在的社交表示。然后这个问题就编程估计以下可能性:
然而,随着游走的距离增大,计算这个目标函数变得不是那么容易。
一个在语言建模的最新的relaxation考虑到了这个预测问题。首先,不是用上下文去预测缺失的单词,而是用单词去预测它的上下文。其次,这里的上下文同时包括该单词的右边的词汇和左边的词汇。最后,它去除了这个问题的顺序约束。取而代之的是,这个模型需要最大化上下文出现的各个单词的概率,而无需知道其偏离给定单词的知识。
在节点表示建模方面,这产生了如下优化问题:
我们发现这些relaxations在社交表示学习上尤其可取。首先,顺序独立假设很好地获取了随机游走所提供的“接近”。另外,这个relaxation可以在某个时间给出一个节点的情况下,通过构建更小的模型加速训练时间。
解决上面式子的优化问题构建了局部图结构的节点之间的共享相似度表示。具有相似邻居的节点会获得相似的表示,可以在机器学习任务上一般化。
通过结合缩短的随机游走和神经语言模型我们建立一种可以满足我们所有期望特性的方法。这种方法生成了社交网络的低维表示,并且在向量空间连续。它表示了社区成员的潜在形式,并且由于这种方法输出有用的中间表示,它可以适应变化的网络拓扑。
3 方法
3.1 概况
在其他所有语言建模算法中,需要的输入仅为一个全集和一个词汇表。DeepWalk把随机游走作为自己的全集,图的节点作为自己的词汇表()。然而,最好在训练之前知道随机游走的和节点的频率分布,不过这不是必须要的。
3.2 算法:DeepWalk
算法主要包括两个主要成分;第一是一个随机游走的生成器,第二是更新程序。
随机游走生成器把图作为输入,随机挑选一个节点作为随机游走的根节点。每一步需要从上一个节点的邻居节点中随机挑选一个作为当前节点,直到达到最大长度。在实验中我们把这个长度固定,但是并没有规定必须取某个相同的值。这些游走可能重新回到起点,但是我们之前的结果并没有显示重新开始的任何优势。在实践过程中,我们在每个节点进行了次长度为的随机游走。
3.2.1 SkipGram
SkipGram是一种语言模型,它使出现在窗口中的单词在句子中的共现概率最大化。
3.2.3 最优化
这个模型的参数集合是,其大小都为。随机梯度下降被用来优化这些参数。微分用后向传播算经进行计算。学习率初始化为2.5%,然后随着目前发现的节点的增加线性减小。
参考文献:
[1]Perozzi B, Alrfou R, Skiena S. DeepWalk: online learning of social representations[J]. 2014:701-710.