幂律分布

来自集智百科
2018年7月31日 (二) 10:37Jake讨论 | 贡献的版本

跳转到: 导航搜索
一个幂律图示例,展示了人气排名的规律。右侧是数量庞大但人气微弱的“长尾”,左侧则是少数“主宰”.。 (又称80–20法则)。

统计学中, 幂律是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关:表现为一个量是另一个量的幂次方。例如,正方形面积与边长的关系,如果长度加倍,那么面积扩大四倍。

目录

实例

各种各样的物理、生物和人造现象的分布在大致遵循着幂律,涉及范围极其广泛,包括月球表面月坑的大小,太阳耀斑的强度,各种物种的觅食模式,神经元集群活动模式的规模,大多数语言的用词频率,各种姓氏的频率,生物各种演化支(clade)的物种丰富度,停电的波及范围,每个罪犯的刑事罪名指控,火山喷发,人类对刺激强度的判断,等等。

不过很少有经验分布符合完整的幂律分布,更确切地说,他们通常是遵循幂律尾部的规律。在许多复杂介质中,声衰减(Acoustic attenuation )遵循宽频带内的频率幂律;揭示生物变量之间关系的异速标度律(Allometric_scaling )是自然界中已知的最著名的幂律函数之一。

性质

标度不变性(Scale invariance)

幂律的一个属性是它们的标度不变性。给定一个关系f(x) = ax^{-k} ,将参数 x标度一个常量 c 只会导致函数本身的比例标度,公式表达为:f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x),此处,\propto 表示成正比(正比例)。也就是说将参数标度常量c,那么对应原始幂律关系乘以常量C^-k.svg。因此, 所有具有特定标度指数的幂律都等效于常量因子(的标度), 因为每个幂律函数都只是其他情况的缩放而已。

如果我们取用两者(f(x)x)的对数,会得到一个线性关系,呈现在双对数图上就是一条直线,这通常被看作幂律的标志。对于实际数据, 这种线性是幂律关系数据的必要条件, 但并不是充分条件。实际上, 有许多方法可以生成模拟此指数行为的有限数量的数据, 但在它们的渐近极限中, 不是真正的幂律 (例如, 如果某些数据的生成过程遵循对数正态分布)。因此, 准确地拟合和验证幂律模型是统计研究的一个活跃领域;详见下文。

缺失完备定义的均值(Lack of well-defined average value)

仅当 k > 2 x^{-k}x \in [1,\infty)具有完备定义的均值 ; 当k >3 时,x^{-k} 具有有限的方差;

自然界中, 大多数幂率分布的指数使得其具有完备定义的均值(K>2嘛),但是方差不是有限的,这意味着它们有可能成为“黑天鹅”行为。下面这个思维实验呈现了这个想法: 假设你和你的朋友一起在一个房间里估算平均月收入,然后世界上最富有的人进入房间,他每月收入约10亿美元,那么房间里的平均收入会怎么样?

我们又将收入分布服从幂律现象称为帕累托分布(例如,美国人的资产净值服从指数为2的幂律分布)。一方面,这使得应用基于方差和标准差的传统统计(例如回归分析)失效。另一方面,这或许可通过采取有效的干预手段解决一些问题,例如,可以应用到汽车尾气排放,这个问题服从幂律分布(极少数汽车导致大多数污染),那么理论上从道路上消除那些极少数汽车就足以减少总排放量。

然而,幂律分布的中位数确实存在: 对幂律x^{-k} ,与指数k > 1,它取 21/(k – 1)xmin,其中xmin时幂律所适用的最小值。

普适性(Universality)

幂律与特定标度指数的等价性在产生幂律关系的动力学过程中有更深层次的渊源。 例如, 在物理学中, 热力系统中的相变与某些量呈现幂律分布有关, 它们的指数被称为系统的临界指数( critical exponents)。具有相同的临界指数的不同系统——即它们在接近临界状态(criticality)时显示相同的标度行为——可以通过重整化理论来证明,他们的基本动力学相同。例如, 水和 CO2 在沸点上的行为在相同的普适类中, 因为它们具有相同的临界指数。 事实上, 几乎所有的物质相变都是由一小套普适类描述的。对于各种自组织的临界系统 (self-organized critical), 人们也进行了类似的观察, 虽然不是很全面, 但在这些系统中,系统的临界点是吸引子。在形式上, 这种动力学的共享性被称为普适性(universality), 而我们通常认为具有精确相同的临界指数的系统属于同一种普适类(universality 5class)

幂律函数(Power-law functions)

科学家对幂率关系感兴趣,部分是因为某些简单机制生成幂率关系所展示出的简洁性。一些数据幂律关系的演示可以指向特定的机制,这些机制不仅是自然现象的基础,还可以表明与其他看似不相关的系统之间的深层联系; 参见上文的普适性 。物理世界中幂律关系的无处不在, 部分是由于维度的限制;而在复杂系统中, 幂律通常被认为是层级或特定随机过程 的特征。几个显著例子是帕累托的收入分配定律, 分形的结构自相似性, 以及生物系统中的标度定律。研究幂律关系的起源, 并致力于现实世界中对它的观察和验证, 是物理学计算机科学语言学地球物理神经科学社会学经济学等许多领域研究的一个热门话题。

不过,最近对幂律的兴趣主要来自于对概率分布的研究:似乎有大量的分布遵循幂律的形式,至少它们右尾是符合的。这些大型事件的行为将这些数量与大偏差理论(theory of large deviations)的研究联系起来(也称为极值理论(extreme value theory)),它考虑了诸如股市崩盘大型自然灾害等极其罕见的事件的发生频率。在统计分布的研究中更倾向于称之为“幂律”。

在实际情况中,近似为幂律分布的情况o(x^k)通常包括一个偏差项,它可以表示观察到的值\varepsilon的不确定性(可能是测量或抽样误差),或者提供一种简单的方法使观察偏离幂律函数(可能是因为随机):y = ax^k + \varepsilon.\!

从数学角度来说,一个严格的幂律函数不可能是概率分布,但一个被截断的幂律函数的分布是可能的:p(x) = C x^{-\alpha} ,对于x > x_\text{min} ,指数\alpha (希腊字母 alpha,注意不要与之前使用的标度系数a混淆)大于1(否则尾部具有无限区域), ,最小值x > x_\text{min}是必须存在的。否则,当x接近0时, 分布具有无限面积, 常量因子C是一个标度因子, 以确保总面积为 1, 这是概率分布的基本要求。更常见的是使用渐近幂律——只在极限情况下成立。指数通常在 2 < \alpha < 3之间,不过这并不绝对。详细信息请参阅下面的幂律概率分布(power-law probability distributions )


示例

从物理学(例如沙堆雪崩),生物学(例如物种灭绝和体重)以及社会科学(例如城市规模和收入)中,已经确定了超过一百种幂律分布。其中包括:


其他形式(Variants)

分段幂律(Broken power law)

初始质量函数的一些模型遵循分段幂律; Kroupa(2001)红色。

分段幂律是一个分段函数,由两个或多个的幂律函数组成,再加上一个阈值。例如,有两个幂律:

Broken.png





具有指数截止的幂律分布(Power law with exponential cutoff)

具有指数截止的幂律就是幂律乘以一个指数函数:

f(x) \propto x^{\alpha}e^{\beta x}.

曲线幂律(Curved power law)

26443a889c020a78d20a607bfbb663be08c6d97b.svg

幂律概率分布(Power-law probability distributions)

广义上,幂律概率分布是一个密度函数(或离散情况下的概率质量函数)具有以下形式的分布: 对于较大的x

P(X>x) \sim L(x) x^{-(\alpha+1)}

其中\alpha > 0L(x)是一个慢变函数(Slowly varying function),对于任何正因子r ,它都满足\lim_{x\rightarrow\infty} L(r\,x) / L(x) = 1L(x)的这个属性来自于p(x) 渐进的标度不变性。因此,L(x)仅控制左尾的形状和有限范围。如果L(x)是常量因子函数,并且我们有一个幂律适用于所有的 x值,在许多情况下,可以很容易地依据幂律假设出一个下限。结合这两种情况,当 x是一个连续变量,幂律有以下形式:

p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha},

其中,frac{\alpha-1}{x_\min}标准化常量因子

下面我们来讨论这个分布的性质。 首先,它的矩可表示为:

\langle x^{m} \rangle = \int_{x_\min}^\infty x^{m} p(x) \,\mathrm{d}x = \frac{\alpha-1}{\alpha-1-m}x_\min^m

m < \alpha -1,定义是完备的; 当m \geq \alpha - 1,发散: 当\alpha\leq 2,均值与高阶矩都是无穷大; 当2<\alpha<3,均值存在,但方差和高阶矩都是无穷大。 如果从这种分布中抽取有限样本,意味着中心矩估计永远不会收敛——并且随着数据的增多,他们还有增大的趋势。这种幂律概率分布又被称为帕累托型分布,具有帕累托尾部特征的分布,或是具有规则变化的分布。

一种不满足上面的一般形式的修改,即指数截止幂律分布。

p(x) \propto L(x) x^{-\alpha} \mathrm{e}^{-\lambda x}.

在这种分布中,指数衰减项\mathrm{e}^{-\lambda x}最终会在较大的x处超过正常的幂律分布。这种分布无法成比例缩放,因此并不是幂律;不过,它会在截止前的有限区域内近似地缩放。(注意,一般的幂律分布是这种分布的简单形式,即 \lambda=0的指数截止幂律分布。)这种分布是渐近幂律分布的常见替代方法,因为它考虑了有限大小的影响。

Tweedie分布是一族统计模型,其特征是基于可加(additive)与可再生(reproductive)卷积以及标度变换(scale transformation)的闭包(closure)。因此,这些模型都表达了方差和均值之间的幂律关系。这些模型作为数学收敛的焦点,类似于正态分布在中心极限定理中所扮演的角色。这种收敛效应解释了为什么在自然过程中, 方差-平均幂律表现得如此广泛, 就像泰勒在生态学中的定律和在物理学中的涨落标度。还可以证明,使用扩展箱( expanding bins) 方法时,这种方差 - 均值幂律分布(variance-to-mean power law)意味着存在1 / f噪声,而1/ f噪声可能是由于Tweedie收敛效应(Tweedie convergence effect)而产生的。


图形检验法(Graphical methods for identification)

在双对数图上呈现直线是必要的,但对于幂律,没有足够的证据证明直线的斜率就对应于幂律指数。

虽然已经提出了更成熟更稳健的方法,但通过随机样本检验幂律概率分布的最常用的图形方法还是帕累托双分位图(Pareto quantile-quantile plots )(或帕累托Q-Q图),平均剩余寿命图(mean residual life plot)和双对数图(Pareto quantile-quantile plots)(log-log图)。另一种更强大的图形检验法是利用bundles of residual quantile functions 残余分位函数束。(注意,幂律分布也称为帕累托分布。)这里假设从概率分布中获得随机样本,并且我们想知道分布的尾部是否遵循幂律(换句话说,我们想知道分布是否有“帕累托尾”)。此处随机样本也被称为“数据”。


帕累托Q-Q图是这样绘制的:它将取对数后(样本)数据的分位数与取均值为1的指数分布对应的分位数(或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该怀疑其服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数\alpha(也称为帕累托指数)接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。

另一种检验幂律概率分布的方法,平均剩余寿命图,包含以下步骤:首先对数据取对数,然后将高于第 i 阶统计量的数据平均值与第 i 阶统计量进行比较绘制,从i = 1, ..., n,其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形; 而这些图形通常被称为Hill horror plots

双对数图是使用随机样本以图形方式检验尾部分布的另一种方式。使用这个方法必须要谨慎,因为双对数图中呈现直线对幂律概率分布是必要不充分条件,许多非幂律分布在双对数图上也显示为直线。这个方法是将特定数在该分布中的概率估计量的对数 | 对比这个数的对数 | 进行绘图。通常,此估计量是该数据在数据集中出现的次数的比例。如果图中的点在x较大时倾向于“收敛”为直线,则可得出结论,该分布具有“幂律尾”(power-law tail)。目前这些类型的绘图的应用示例已经发表。但这种方法的局限是,需要大量的数据才能使结果可靠。此外,它仅适用于离散(或分组)数据。

不过,目前已经提出了使用随机样本检验幂律概率分布的另一种图形方法。该方法包括绘制对数变换样本的束,是最早提出使用随机样本探索矩的存在和矩生成函数的工具,基于残差分位函数(RQF)(也称为残差百分位函数),它提供了许多众所周知的概率分布的尾部行为的完整表征,包括幂律分布与其他类型的重尾,甚至非重尾分布的分布。这种方法绘制的图形没有上面提到的平均剩余寿命图、双对数图和帕累托 Q-Q图的缺点,它们对异常值很敏感,能够直观地检验具有小\alpha值的幂律,并且不适用于分析大量数据。此外,其他分布类型的尾部也可以用这个方法观察检验。


绘制幂律分布(Plotting power-law distributions)

一般来说,幂律分布是在双对数坐标轴上绘制的,强调右尾部分。最简便直观的方法是通过(互补)累积分布函数(cumulative distribution function, 缩写为 cdf)说明:

frameless]
2b8d0032c3570bac175ddeec28dc8eaf14ff5da12.svg
积累分布函数示例

注意,cdf也是幂律函数,只是它的标度指数较小。从数据处理角度,cdf的等价形式是rank-frequency 分布,即先按升序排列n的观察值,再将它们与矢量\left[1,\frac{n-1}{n},\frac{n-2}{n},\dots,\frac{1}{n}\right]对应.

尽管便于记录数据,抑或是便于拟合平滑概率密度(质量)函数,但这些方法在数据表示中引入了隐式偏差,因此应该避免。另一方面,所述的cdf法对处理这些隐式偏差更稳健(但并非没有偏误)并且保留了在双对数图形上的线性特征。虽然在同时用线性最小二乘法拟合幂律时,使用cdf绘制优于pdf(概率密度函数),但其不可避免地在数学上有不准确性。因此,在估计幂律分布的指数时,建议使用最大似然估计。

从经验数据估计指数

有许多方法可以估算幂律尾部的标度指数值,但并非所有方法都能产生无偏且一致的结果。一些最可靠的技术通常基于最大似然估计。替代方法通常基于双对数概率,双对数累积分布函数或对数分组数据进行线性回归,但是,应该避免这些方法,因为它们都可能导致对标度系数的具有显著偏误的估计。

极大似然估计(Maximum likelihood)

对取自独立同分布的实函数的数据,我们拟合幂律分布的形式:

p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha}

要求x\geq x_\min, 其中系数 Frag.svg 是标准化常量. 给定x_\min, 则对数似然函数变为:

\mathcal{L}(\alpha)=\log  \prod _{i=1}^n \frac{\alpha-1}{x_\min} \left(\frac{x_i}{x_\min}\right)^{-\alpha}

这种可能性的最大值是通过对参数\alpha进行微分来找到的 , 从而使微分等于零,再重新排列,就得到了估计量方程:

\hat{\alpha} = 1 + n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_\min} \right]^{-1}

其中 对 n 个数据,\{x_i\} 满足x_{i}\geq x_\min.This estimator exhibits a small finite sample-size bias of order O(n^{-1}), which is small when n > 100. 此外, 这个估计的标准误是 \sigma = \frac{\hat{\alpha}-1}{\sqrt{n}} + O(n^{-1}). 这个估计量相当于从数量金融学和极端价值理论中获得的需要的 Hill 估计量。 对于一组n值的整数数据点\{x_i\},对每一个x_i\geq x_\min,都有最大似然指数是先验方程的解:

\frac{\zeta'(\hat\alpha,x_\min)}{\zeta(\hat{\alpha},x_\min)} = -\frac{1}{n} \sum_{i=1}^n \ln \frac{x_i}{x_\min}

其中 \zeta(\alpha,x_{\mathrm{min}})不完整的黎曼ζ函数。这个估计的不确定性和连续方程的公式是一样的。 然而,这两个方程是不等价的,连续的方程形式不应该应用于离散的数据,反之亦然。

另外,这两种估计都需要选择 x_\min.对于非平凡函数 L(x) , 选择太小的x_\min\hat\alpha会产生显著的偏误 , 选择过大又会增加\hat\alpha的不确定性, 并且降低模型的统计功效. 所以通常情况下,x_\min的最佳选择很大程度上取决于左尾的特定形式,以L(x)为代表。

关于这些方法,以及能够使用它们的条件,可以进一步发现,这篇文章全面而详细地提供了可用的代码(Matlab、Python、R和C++)来评估和测试幂律分布的过程。

Kolmogorov–Smirnov估计

另一种计算幂律指数的方法,它不使用独立同分布数据,使用的是Kolmogorov-Smirnov统计量的最小值, D,在数据的累积分布函数和幂律之间:

\hat{\alpha} = \underset{\alpha}{\operatorname{arg\,min}} \, D_\alpha

且:

 D_\alpha = \max_x | P_\mathrm{emp}(x) - P_\alpha(x) |

其中P_\mathrm{emp}(x)P_\alpha(x)分别表示数据的cdfs和指数\alpha的幂律概率分布。由于这种方法不以独立同分布数据为前提,所以它提供了一种替代方法来确定数据集的幂律指数,在这种情况下,时间相关性不能被忽略。


两点拟合法(Two-point fitting method)

两点拟合法可用于无标度分布情况下幂律指数的估计——它比极大似然估计更收敛。研究断裂孔径的概率分布是这种方法的应用之一。某些情况下概率分布并不使用积累分布函数( cumulative distribution function)表述,而是根据满足X> x条件的X的积累频率 (cumulative frequency) ,其中X是每单位(或区域单位、秒等)的要素数目,x是一个可变实数。例如,将N个元件的样品的裂缝孔X的累积分布定义为“每米的裂缝数目大于x的裂缝的数目”。使用累积频率有其优势,例如,它允许人们把从不同标度的不同长度的样本线(例如分别从露头(outcrop)和从显微镜)收集的相同的图表数据放在一起。

R 函数

通过R函数估计指数, 并绘制双对数数据拟合线:

R.png

验证幂律

尽管幂律关系因许多理论原因而具有吸引力,但证明数据确实遵循幂律关系需要的不仅仅是简单地将特定模型拟合到数据中。这对于理解产生分布的机制很重要:表面上类似的分布可能由于显着不同的原因而出现,并且不同的模型产生不同的预测,例如外推法。


例如,对数正态分布常被误认为幂律分布:从对数正态分布绘制的数据集对于大值(对应于对数正态的上尾接近幂律)将近似为线性[,但对于较小的值,对数正态将显着下降(向下弯曲),对应于对数正态的较低尾部较小(很少有小值,而不是幂律中的许多小值)。


例如,Gibrat关于比例增长过程的定律产生对数正态分布,尽管它们的双对数 图在有限范围内看起来是线性的。对此的解释是,虽然对数正态密度函数的对数在log(x)中是二次的,但在双对数图中产生“弓形”形状,如果二次项相对于线性项较小则结果可以看起来几乎是线性的,并且对数正态行为仅在二次项占优势时才可见,这可能需要更多的数据。因此,向下略微“弯曲”的双对数图可以反映对数正态分布——而不是幂律。


一般而言,许多替代函数形式在某种程度上似乎遵循幂律形式。Stumpf 提出在双对数域中绘制经验累积分布函数 ,并声称候选幂律至少应涵盖两个数量级。此外,研究人员通常不得不面对决定现实概率分布是否遵循幂律的问题。作为解决这个问题的方法,迪亚兹提出了一种基于随机样本的图形方法,允许在不同类型的尾部行为之间进行视觉辨别。该方法使用残余分位数函数的束,也称为百分位剩余寿命函数,其表征许多不同类型的分布尾部,包括重尾和非重尾。然而,Stumpf声称需要统计和理论背景,以支持驱动数据生成过程的基础机制中的幂律。


验证幂律关系的一种方法是对特定的生成机制对数据进行许多正交的预测。简单地将幂律关系与特定类型的数据相匹配并不被认为是一种合理的方法。因此,在现代科学的许多领域中,对幂律的验证仍然是一个非常活跃的研究领域。

参见

相关链接

编辑:靠倒立解气

个人工具
名字空间
操作
导航
工具箱