方法论

幂律分布与指数分布、幂律与分形

2017-10-10  本文已影响144人  闪闪发光的Lucky

01 问题的引入:

在看《跃迁》这本书时,第二章讲到幂律时,提到:

幂律分布的第一个特征,就是高度的不平均。

幂律的第二个重要特色,就是分形(fractual)。

作者对 幂律——分形 之间所做的关联让我本能的产生了好奇,准确地说是产生了疑问。

后来才发现,之所产生疑问,是因为当我看到下面这个“幂律分布函数”时,我脑海里出现的是一个指数函数的表达式!我把幂律分布和指数分布搞混淆了。

幂律分布(长尾分布)

02 问题的求解过程:

我面对这个问题的第一反应是:幂律、指数、分形,肯定都是源于数学的概念吧?!

回到最源头,去找这几个概念对应的数学定义和数学表达式。

找到的比较有价值的资料有:

1.指数分布与幂律分布定义及不同(泊松分布、伽马分布)

2.从盛极而衰的指数衰减律到幂律分布律——弱而不太衰的坚强少数派

回到我的思路:数学定义与数学表达式

1、定义(1)幂律分布(pow law distribution),其概率密度函数形式如下,这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。

幂律分布的 概率密度函数

其中x,y是正的随机变量,c,r均为大于零的常数。

对上式两边取对数,可知lny与lnx满足线性关系lny=lnc-rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式。

(2)指数分布

指数分布一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。其概率密度函数和分布函数如下:

指数分布的 概率密度函数

λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。 如果一个随机变量X呈指数分布,则可以写作:X~ E(λ)

把两种分布的概率密度表达式放在一起对比,就是根据其表达式的函数类型给起的名儿。

把他们画在同一个线形坐标系,很像,难区分。但如果放到双对数坐标系,很容易就区分开了。在双对数坐标系里,幂律分布的曲线是一条直线。

可是,为什么幂律分布会具有分形的特点呢?(我的第六感)难道跟它在双对数坐标系里是一条直线有关?

作者:彭鸣     链接:https://www.zhihu.com/question/19931652/answer/37261102

来源:知乎

分形图形的基本特征是具有标度不变性

即在使用不同的尺度下观测分形图形时所得到的结果是具有相似性的,分形图形具有尺度上的对称性。

这种特性表明,不同的尺度(大小)的同一种分形图形之间具有某个共同的几何参数,即这一参数是一个与尺度大小无关的不变量,这个量就是分形集合中的分数维

但是通常几何体的维度一般是整数维度,比如一条直线的维度是1,一个平面的维度是2,一个立方体的维度是3。这种维度的定义可以这样理解:在平面中有一个边长为a的正方形,那么它的面积是a^2,如果将其边长放大b倍,则新的正方形面积为(ab)^2,即在边长放大b倍之后面积变为了b^2倍,占据原先图形b^2的面积;同样的如果是在空间中有一个边长为a的立方体,其边长放大b倍后得到的新立方体,体积为原来的b^3倍,占据相当于b^3个原先的立方体叠放在一起的空间。

照这样的理解,如果在D维空间中有一个几何体,把其每个方向的长度都放大b倍后,得到的新几何体的“体积”放大的倍数为:

那么对于分形图形,具体举个例子吧:

康托尔集合:

<img src="https://pic3.zhimg.com/50/b732894ab38c14f59e2922c054c9974e_hd.jpg" data-rawwidth="729" data-rawheight="118" class="origin_image zh-lightbox-thumb" width="729" data-original="https://pic3.zhimg.com/b732894ab38c14f59e2922c054c9974e_r.jpg">取一条线段,三等分后去掉中间一段,可以的到余下的两段;再对于这两段,同样地去掉中间的1/3,每一段又能余下两段,就成了一个四条线段组成的图形,如此循环下去,无穷多次以后,最终能得到一个只由点组成的集合(到最后分得只剩下点了*^__^*)。

取一条线段,三等分后去掉中间一段,可以的到余下的两段;再对于这两段,同样地去掉中间的1/3,每一段又能余下两段,就成了一个四条线段组成的图形,如此循环下去,无穷多次以后,最终能得到一个只由点组成的集合(到最后分得只剩下点了*^__^*)。

对于这样的一个集合,若取如图所示长度内的这样一个点集的图形,将它放大3倍以后,只能得到相当于两个原来的图形大小的新图形,那么这个分形的维度就是:

其它分形图形的维度也可由类似的方法得到。

好像真的是这样!

所以,幂律分布曲线的【分形维数】= ln y/ln x = r ?

因为只有从它的表达式才可以推导出【分形维数】是一个常量!指数函数就做不到!


03 此次思考的结论

最后的结论好像是说服了我自己。

要验证这个结论是否正确,改天可以找时间做如下尝试:按照这个逻辑再推导出几个结论,或者按照这个规律自己造几个符合此规律的函数,然后作图,看看这些图形效果是不是真的具有“分形”的特点。

收获:加深了对幂律分布、分形的了解,进一步区分了一些基本概念,比如[幂函数、指数函数]  与  [ 幂律分布函数、指数分布函数 ]完全是分属两套系统的不同概念,虽然有一定关联,但内涵大不相同,不能简单将它们按照字面意思进行粗暴连接。

上一篇下一篇

猜你喜欢

热点阅读