明日线上公开课预告
想要更好地了解幂律分布,
下面这节免费公开课怎么能错过?!
10月10日 19:00-20:30 带你启程
本文介绍了幂律分布的形式、特点以及无标度网络的形式和特点,特别是无标度网络在于抵御攻击和传染病传播上的特异性。列举了一些经典的幂律分布随机变量生成机制,最后简介了对数线性回归和极大似然对于幂律指数的估计方式以及KS检验在幂律分布检验上的应用。
什么是幂律分布
什么是无标度网络
如何产生幂律分布
如何估计和判断幂律分布
图1 某一些人口的身高分布特征图。红色为实际样本,绿色为正态分布的拟合
红色的是实际数据,而理论上是绿色图形,这个理论分布就是著名的正态分布,又名高斯分布。如果身高确实服从这个分布的,我们基本上不可能看到身高超过5米的人。
1.1.2智商分布
还可以举一个例子,就是人的智商,如果大家用有钱又有闲的话,找来足够多的人测量一下他们的智商,然后也画出智商的分布,你也会发现它也是服从这样一个中间比较高,两边迅速衰减的分布图。
从图上可以看出,大家的平均智商在一百,只有很少的人能跑很远,据说莫扎特,爱因斯坦的智商很高,达到160以上,但只有千分之一的人才能有资格如此骄傲!进一步,我们可以讨论这样一个问题——智商达到1000的人存在吗?答案是,如果这个分布是对的,那么人类不可能达到,不可能在偏离期望那么远的地方找到正态分布随机数样本。
图4 幂律分布随机数的频数统计直方图
为什么会出现一条直线?其实很简单,如果我们对上面的这个概率分布的概率密度函数两边取对数,我们就会得到这样一个函数形式。
要注意实际上的数往往不会有这么好的一致性。那就有必要讨论一些实际数据是否符合幂律,如何来进行估计和推断这个问题。实际可能服从幂律分布的数据还有那些呢?我们再看几个例子。
1.2.3 地震的能量
图6 城市规模的分布
图像来源:Newman, M. E. . Power laws, Pareto distributions and Zipf's law. Contemporary physics, 46, 323-351.
复杂网络研究的大牛Newman在2005年发表了一篇文章,展示了城市规模的分布,如图6所示,左图是原始的分布,右图是双对数坐标,可以看出明显的直线特征,意味着幂律分布特征。城市的生成和维持是一个人类和自然交互形成的结果,这个系统中的一些现象也能表现出幂律分布特征。
1.2.5 回信的时间间隔
图8 幂律分布的标度不变性
幂律分布的期望和方差让人意外,它还有一个让人意外特征,被称为标度不变性。
形象地说,就像用一个放大镜观察这个分布,无论看什么细节,放大多少倍数,所得到的性质是一样的,这种现象被称为无特征尺度,而正态分布是有的,必须整体上看是一个钟的形状,放大任何局部都不会得到钟形的图案。
这还可以用马上会讲到的帕累托80/20法则来说,80/20法则说20%的人口掌握了80%的财富。而在这个掌握的80%财富的的20%人口中,又有20%掌握了其中的80%,而在穷人部分随便划出一部分,也会发现20%的较为富有的占有了这部分穷人总财富的80%。当看任何财富的区间,都会有同样的规律,这个规律和所划定的区间无关。
1.2.8 齐普夫律
在幂律分布概念提出以前,已经有很多人研究类似的现象,这里面要两个重要人物,一个是齐普夫,一个是帕累托。
Zipf提出了Zipf律,实际上在他1932年和1935年研究不同语言的词频的时候就讨论了这个规律,把某种语言的文本数据拿来,分割成词,分完后数一下不同的词各出现了多少次,然后从多到少排序,例如对于汉语来讲排在最左边的是“的”,英语是“the”。将结果画在图上,横轴就是排序大小,纵轴就是对应的词出现的次数,如图9所示,在双对数坐标下呈现直线特征。Zipf律的数学表达是
图10 幂律分布和Pareto分布
数据来源:Newman, M. E. . Power laws, Pareto distributions and Zipf's law. Contemporary physics, 46,323-351.
1.2.10 Power Law分布、Zipf律、Pareto法则的关系
从图5、图9和图10可以看出,三者都是在双对数坐标先表现为负斜率的直线,但三者坐标不同,Zipf律描述从大到小排序后位置r与处于该处的元素尺度或者规模x之间的关系;Pareto分布描述累计分布函数的性质,大于等于某一个尺度x的总概率正比于x的一个幂函数;幂律分布概率密度函数的性质,表明某一个尺度x的概率密度正比于x的一个幂函数。
以现代的观点来看,这三者是等价的,是对于同样数据的三种不同侧面的展示。
先看一个简单的好说的,就是Pareto分布和幂律分布是一回事。为什么?Pareto分布表现的是就是概率密度函数的逆累积分布函数,从某一个x积分到无穷大,幂律函数的积分还是幂律函数,但幂指数会加1。所以幂律分布就可以通过逆累积分布得到Pareto分布。相反,如果对于Pareto分布求导数,就可以得到幂函数形式的概率密度函数。故二者是等价的。
如果对于逆累积分布乘上样本的数量实际上可以得到一个排名,就是这个排名之前的样本的取值大于当前的取值,或者当前的x取值的排名就是样本总数乘以Pareto分布在当前样本的取值。Pareto分布和Zipf律实际上是颠倒了横轴和纵轴,他们从图形上是关于y=x对称的。对数直线的Pareto分布等价于对于直线的Zipf律,斜率互为倒数。综上,这三者是同一个数据的不同展示形式,在双对数坐标下均为负斜率的直线,且满足关系
2.1 复杂网络
和度
世界很复杂,特别是人的参与会增加其不确定性和更为复杂的关系。复杂的系统会呈现诸多属性和特征,各个属性之间的关联错综复杂,从复杂的系统抓住最核心的因素和作用机制是能成功分析系统应用系统的必由之路。复杂网络是人类认识复杂世界的一个典型工具。在研究一些具体的例子时,可以做一些简化,复杂网络就是对于真实系统简化得来的。例如研究消息在社会中的传播,假如个体不掌握诸如CCTV这样的媒体信息,那么很多消息是通过社会关系传递出去的,所以朋友关系就是消息传播的重要载体。在研究消息传播时,我们不用考虑他们穿什么衣服,也可以简化性别差异的影响,最后发现最核心的影响传播行为的就是这个社会关系网,在这个网络中个体被抽象为节点,关系被抽象为连边,个体的生物功能等完全不用考虑,节点的唯一功能就是通过连边传递信息。图11是一个社会关系网络的示意图,左边表示一个非常局部的网络,个人为节点而具有朋友关系就会在相应的节点之间连一条边。节点的连边数量称为度,图11中的两个人的度是5,在这个局部区域的信息传递中一定会起到重要的作用。整个社会关系网可能如图11一样,很多的节点的度会很小,而一些节点的度很大,微博上一些大V的粉丝惊人地多,他们在消息的传递上具有相当高的话语权。这种度的分布对于网络的功能具有重要影响。表示连接到度为的节点的概率。后续已经有一些类似的机制产生不同指数的无标度网络。在这儿要强调一下这个偏好依附的思想实际上是有很深的意义,马太效应说的也是这个意思,正反馈也是这个意思。现实上能找到很多正反馈的例子来说明幂律分布,例如有一篇文章提到,对于名字的偏好使用造成名字的分布呈现幂律特征。
图16 偏好依附网络的形成过程
数据来源:http://barabasi.com/publications/1/review-articles
3.2 货币转移模型
在讨论收入和财富分布的时候,一个经典模型就是货币转移模型。这个模型很简单,如图17所示,就是一堆人来随机瓜分一堆钱,在模型的运行过程中,随机找出两个人进行交易,交易过程就是把他们的钱放一起再做一次随机分配。这个图上的连线表示交易关系。在不同的参数情况下模型会得到不同的结果。
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!