网络模型框架
【书籍/课程名称】网络模型
【类型】
书籍目录框架/课程框架
【一、结构】
* 【概念】
* 网络由节点以及连接节点的边(edge)组成。由边连接起来的节点互为邻居。如果沿着边,可以从任何一个节点到达任何其他节点,就将这样的网络称为连接的网络。
* 网络可以用图形来表示,也可以用边的列表表示,或者也可以用由0和1组成的矩阵表示,其中第A行、第B列的一个数字表示节点A和节点B之间的边。虽然人们更喜欢用图形来表示网络,但是其实用列表和矩阵来表示网络,才更适用于计算网络统计数据。
* 网络中的边可以是定向的,也就是说,可以从一个节点指向另一个节点。边也可以是非定向的;连接两个朋友的边就是非定向的。在非定向网络中,一个节点的度(degree)等于连接到它的边的数量。
* 【统计量】
* 网络以一组网络统计数据为特征。对于每个统计量,我们可以计算网络平均值和所有节点的分布。
* 度:节点的邻居数(即边数)。度分布(degree distribution)告诉我们某些节点是否比其他节点连接得更多。
* 路径长度:从一个节点到另一个节点必须遍历的最小边数。与度成反比。最短路径上的节点在网络中起着关键作用。如果信息是通过最短路径传递的,那么就必定会经过最短路径上的节点。
* 介数:经过某个节点连接两个其他节点的最短路径数量。节点的介数得分(betweenness score)等于通过该节点的最小路径的百分比。在社交网络中,介数得分高的人掌握更多信息并且拥有更多权力。
* 聚类系数:一个节点的邻居对当中,同样也由一条边连接的邻居对所占的百分比。整个网络的聚类系数等于各个节点聚类系数的平均值。
* 刻画网络的聚集程度的另一种方法是将节点划分为不同的社区(community)。
* 网络泡沫:我们所属的社区,可能是由只从类似来源获取新闻的人组成的。如果真的是这样,那么无疑会对社会凝聚力产生重要的影响。
* 在分析网络时,我们遇到了网络过于多样性的问题。少数几个网络统计量无法确定具体的网络结构:人们可以构建出数十亿个具有10个节点且平均度为2的不同网络。还可以通过检验它的统计指标是否与某个常见的网络结构有显著差异来表征网络。
* 【常见的网络结构】
* 辐射网络:中心节点与其他每个节点的距离均为1。所有其他节点与中心节点的距离为1,与中心节点之外的任何一个节点的距离为2。
* 地理网络:有一种地理网络将节点排列在棋盘上,并让每个节点与自己东、南、西、北的邻居相连。大多数常见的地理网络都具有较低的度,即节点仅连接到本地邻居,并且具有相对较大的平均路径长度。在地理网络上,介数和聚类系数不会有变化。
* 随机网络(random network):聚类系数等于一条随机的边的概率,因为一个节点的两个邻居并不比任何其他随机选择的节点更可能包含一条边。
* 随机网络的蒙特·卡罗方法:为了检验一个具有N个节点和E条边的网络是不是随机网络,可以创建大量具有N个节点和E条边的随机网络,并计算出度、路径长度、聚类系数和介数的分布。然后,执行标准的统计检验,以确定接受还是拒绝那个网络的统计数据可能抽取自该模拟分布的假设。
* 幂律网络:这种网络的度分布是幂律的。少数节点有许多连接,同时大多数节点的连接则非常少。
* 小世界网络:结合了地理网络和随机网络的特征。要想构建一个小世界网络,可以从一个地理网络开始,然后进行“重新布线”,方法是随机地选择一条边并把这条边所连接的其中一个节点替换为一个随机的节点。如果“重新布线”的概率等于零,所拥有的就是一个地理网络;如果“重新布线”的概率等于1,那么就有了一个随机网络;而当概率介于这两者之间时,就会得到一个小世界网络。以小集群区别于通过随机链接连接到其他集群的地理网络。社交网络看起来类似于小世界,每个人都有一群朋友,以及若干随机的朋友。
随机网络、地理网络、幂律网络和小世界网络
* 【网络结构的鲁棒性】
* 网络最重要的性质是,它在受到冲击时是不是仍然能保持连接。
* 缺乏局部聚类的稀疏网络更容易出现故障。
* 战略性地移除度最高的节点会破坏整个网络。
* 如果这些网络是像电网那样的稀疏网络或者具有长尾度分布,那么就可以通过移除战略节点来断开这些网络。如果这些网络类似于小世界网络,那么它们就会具有鲁棒性,甚至在战略性的节点被移除之后仍然能屹立不倒。
【二、构建逻辑】
* 我们遇到的大多数网络结构都是从个体行为者做出的关于建立连接的选择中涌现出来的。也有一些网络,例如供应链网络,确实是计划的产物。我们希望按计划构造的网络对节点的故障具有鲁棒性。
* 随机网络:随机创建一组节点,然后绘制连接随机节点对的边,就可以创建随机网络。
* 地理网络:常用的方法是在一个圆周上排列节点并在每个方向上连接k个邻居。
* 小世界网络:通过构建一个规则的地理网络,然后随机“重新布线”一部分边,就可以创建一个小世界网络。
* 幂律网络:
* 要创建一个具有长尾分布的网络,可以利用优先连接模型的一个变体。先随机创建一些节点,然后画出从新节点到现有节点的边。如果我们令连接到节点的概率与节点的度成正比,就可以产生幂律的度分布。
* 质量和度的网络形成模型:(公式略)如果新节点质量的均值和方差都足够低,那么这个模型就类似于标准的优先连接模型。如果质量分布有一条长尾,那么质量很高的新节点的度可以增长到非常大的程度。
【三、网络的功能/应用】
* 【友谊悖论】
* 如果网络中任何两个节点的度不同,那么平均而言,节点的度会低于其相邻节点。换句话说,平均而言,人们的朋友比他们自己更受欢迎。
* 在任何网络上,平均来说,人们确实不可能比他们的朋友拥有更多的朋友。这个特征,也就是度更高的人与更多的人连接在一起的事实,驱动了结果。
* 友谊悖论适用于任何网络:电子邮件网络、学术引文网络、银行网络和国际贸易网络等。平均而言,一篇学术论文引用的参考文献被引用的次数比这篇文章本身更多。
* 友谊悖论的逻辑可以扩展到任何与朋友数量相关的性质。如果活跃、快乐、聪明、富有和友善的人平均而言会拥有更多的朋友,那么一个人的朋友平均来说会更活跃、更快乐、更聪明、更富有、更友善。
* 【六度分隔】
* 地球上的任何两个人都可以通过6个或更少的朋友联系到一起。
* 为了产生六度分隔,我们将相同的逻辑应用于一个具有100个“圈内好友”和20个随机朋友的网络。将随机朋友的所有朋友人数相加,但是不把圈内好友计算在内,因为他们本身就是节点群体的成员。
* 假设每个节点有100个“圈内好友”(C),他们彼此都是朋友;以及20个随机朋友(R),他们没有与节点共同的朋友。
* 一度:C+R=120
* 二度:CR+RC+RR=2000+2000+400=4400
* 三度:CRC+CRR+RCR+RRC+RRR=328000
* 四度13:17360000
* 五度:>10亿
* 六度:>200亿
* 由于假设随机朋友的朋友之间没有重叠,这个模型隐含地假定人口是无限的。但是在现实世界中,随着度数的增大,真实的社交网络会出现朋友之间的重叠。在包括了重叠和其他真实世界特征(例如朋友数量的异质性)的网络中,实际值将会与上面计算出来的值不同。
* 虽然友谊悖论适用于任何网络,但是六度分隔却只适用于某些类型的网络。
* 我们构建了一个简化版的小世界网络,以便直观地理解六度分隔理论。这个小世界网络假设每个人都有一个由若干个圈内好友构成的小群体,这些人彼此认识,而且每个人都拥有不属于这些圈内的朋友,我们把这些圈子外的朋友称为“随机朋友”(random friends)。
* 这些随机朋友也可以认为是一种弱关系,他们可以将你连接到其他群体的人。我们的弱关系,也就是网络中的随机朋友,由于连接了具有不同兴趣和信息的社区,从而发挥了重要的信息作用。因此,社会学家很强调弱关系的力量。
* 三度朋友可能是相当重要的,与一个人的“圈内好友”不同,一个人的三度朋友往往会住在不同的城市,就读于不同的学校,拥有不同的信息,他们会更加多样性。他们也足够接近,可以建立起信任关系:朋友的朋友的朋友可能是你的室友的母亲的同事,或者是你妹妹的男朋友的姨妈。三度朋友的数量很重要,他们的多样性以及相对接近性使他们成了你的重要资产,他们可以提供新的信息和工作机会。这些人最有可能帮助你找到工作,促使你搬到新的城市,或者成为生活中、商业上的伙伴。
* 【人的价值贡献】
* 问题:一个人的价值或贡献可能是源于他本身的某种性质,例如聪明才智、努力水平或好运气,但是,一个人的成功或许也可以归功于其朋友和同事的网络。这其实是一个非常古老的问题:成功到底取决于你所知道的东西,还是取决于你所认识的人?
* 成功肯定与能力相关。一个能够让投资者获利数百万的商业创意当然是一个好主意,发表数百篇论文并获得无数奖项的科学家肯定具有很高的科研能力。但是另一方面,我们也不能否认,恰恰是那些在网络中占据了最核心位置的人做出了最大的贡献。
* 某个科学家发表的学术论文、申请的专利或取得科学突破的数量不仅取决于他自己知道些什么,而且也依赖于他与其他科学家的互动,他会受到他所认识的人的影响。我们要把环境特征和内在性质一起考虑,然后再来确定某位科学家的成功应该在何种程度上归因于自己的努力程度。
* 这里的分析以及大多数文献都将节点视为分析的单位。事实上,边同样也很重要。在许多其他公共领域和私人领域,网络都可以改进我们的思考。
* 【迈尔森值和结构洞】
* 一个人在一个组织中的位置会影响他的成功。由于能够从多个社区获取信息和思想,这些填补了结构洞的人拥有很大的权力和影响力。
* 为了计算出每个博弈参与者的迈尔森值,我们先为所有可行的联盟分配增加值;再对每个可能的联盟计算夏普利值,将每个联盟视为一个单独的博弈。最后,将每个联盟博弈的夏普利值相加,就可以得到迈尔森值。
* 中心性测度(例如介数)只以网络为基础,而迈尔森值则取决于价值函数。同时采用这两种测度,可以将一个人的权力对他在网络中位置的依赖性,与对他所发挥作用的依赖性分开。