“幂律分布”的版本间的差异

来自集智百科
跳转到: 导航搜索
缺失完备定义的均值(Lack of well-defined average value)
幂律概率分布(Power-law probability distributions)
 
(未显示5个用户的100个中间版本)
第1行: 第1行:
 +
{{#seo:
 +
|keywords=分形,幂律分布,肥尾,幂律函数,集智
 +
|description=幂律分布,标度不变形,幂律函数,集智
 +
}}
 +
该词条由 靠倒立解气 翻译编辑,由高飞审校,张江总审校,翻译自Wikipedia词条[https://en.wikipedia.org/wiki/Power_law Power_law]。
  
[[File:Long tail.svg.png|500px|缩略图|右|一个幂律图示例,展示了人气排名的规律。右侧是数量庞大但人气微弱的[https://en.wikipedia.org/wiki/Long_tail “长尾”],左侧则是少数“主宰”. 。 (又称80–20法则)。]]
+
[[File:Long tail.svg.png|500px|缩略图|右|一个幂律图示例,展示了人气排名的规律。右侧是数量庞大但人气微弱的[https://en.wikipedia.org/wiki/Long_tail “长尾”],左侧则是少数“主宰”。 (又称80–20法则)。]]
 +
 
 +
在[https://en.wikipedia.org/wiki/Statistics  统计学]中, '''幂律'''是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关:表现为一个量是另一个量[https://en.wikipedia.org/wiki/Exponentiation#Limits_of_powers 的幂次方]。例如,正方形面积与边长的关系,如果长度加倍,那么面积扩大四倍。<ref name="a">Bar-Yam, Yaneer (2015) [https://pattern.swarma.org/paper?id=3f7cfb86-6a75-11ea-8988-0242ac1a0005 "Concepts: Power Law"].New England Complex Systems Institute. Retrieved 18 August.</ref>
  
在[https://en.wikipedia.org/wiki/Statistics  统计学]中, '''幂律'''是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关:表现为一个量是另一个量[https://en.wikipedia.org/wiki/Exponentiation#Limits_of_powers 的幂次方]。例如,正方形面积与边长的关系,如果长度加倍,那么面积扩大四倍。
 
  
 
==实例==
 
==实例==
  
  
 各种各样的物理、生物和人造现象的分布在大致遵循着幂律,涉及范围极其广泛,包括月球表面月坑的大小,[https://en.wikipedia.org/wiki/Solar_flare 太阳耀斑]的强度,各种物种的觅食模式 神经元集群活动模式的规模,大多数语言的[https://en.wikipedia.org/wiki/Word 用词频率],各种[https://en.wikipedia.org/wiki/Family_name 姓氏]的频率,生物各种演化支(clade)的物种丰富度 [https://en.wikipedia.org/wiki/Power_outage 停电]的波及范围,每个罪犯的刑事罪名指控,火山喷发,人类对刺激强度的判断,等等。
+
 各种各样的物理、生物和人造现象的分布在大致遵循着幂律,涉及范围极其广泛,包括月球表面月坑的大小,[https://en.wikipedia.org/wiki/Solar_flare 太阳耀斑]的强度,<ref name="Newman">Newman, M. E. J. (2005). "Power laws, Pareto distributions and Zipf's law". [https://en.wikipedia.org/wiki/Contemporary_Physics Contemporary Physics.] 46 (5): 323–351. [https://arxiv.org/abs/cond-mat/0412004 arXiv:cond-mat/0412004 ]Freely accessible. [http://adsabs.harvard.edu/abs/2005ConPh..46..323N Bibcode:2005ConPh..46..323N.] [https://doi.org/10.1080/00107510500052444 doi:10.1080/00107510500052444]</ref>
 +
各种物种的觅食模式,<ref name="Humphries">{{cite journal | vauthors=Humphries NE, Queiroz N, Dyer JR, Pade NG, Musyl MK, Schaefer KM, Fuller DW, Brunnschweiler JM, Doyle TK, Houghton JD, Hays GC, Jones CS, Noble LR, Wearmouth VJ, Southall EJ, Sims DW | year = 2010| title = [https://www.nature.com/articles/nature09116 Environmental context explains Lévy and Brownian movement patterns of marine predators]  | journal = Nature | volume = 465 | issue = 7301| pages = 1066–1069}}</ref>  神经元集群活动模式的规模,<ref name="Klaus">{{cite journal | author = Klaus A, Yu S, Plenz D | year = 2011 | title = Statistical Analyses Support Power Law Distributions Found in Neuronal Avalanches | journal = PLoS ONE | volume = 6 | issue = 5| pages = e19779 |  editor1-first = Michal  }}[http://adsabs.harvard.edu/abs/2010Natur.465.1066H Bibcode:2010Natur.465.1066H.][https://doi.org/10.1038/nature09116  doi:10.1038/nature09116.][https://www.ncbi.nlm.nih.gov/pubmed/20531470 PMID 20531470.]</ref> 大多数语言的[https://en.wikipedia.org/wiki/Word 用词频率],各种[https://en.wikipedia.org/wiki/Family_name 姓氏]的频率,生物各种演化支(clade)的物种丰富度,<ref name="wzffd">{{cite book
 +
|editor1-last=Albert|editor1-first=J. S.
 +
|editor2-first=R. E.|editor2-last=Reis
 +
|year=2011
 +
|title=[http://www.ucpress.edu/book.php?isbn=9780520268685 Historical Biogeography of Neotropical Freshwater Fishes]
 +
|publisher=University of California Press
 +
|location=Berkeley
 +
}}[http://adsabs.harvard.edu/abs/2016NatSR...622289C Bibcode:2016NatSR...622289C. ][https://doi.org/10.1038/srep22289 doi:10.1038/srep22289. ISSN 2045-2322.] [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4772095 PMC 4772095 Freely accessible.][https://www.ncbi.nlm.nih.gov/pubmed/26926425 PMID 26926425.]</ref> [https://en.wikipedia.org/wiki/Power_outage 停电]的波及范围,每个罪犯的刑事罪名指控,火山喷发,<ref>{{Cite journal|last=Cannavò|first=Flavio|last2=Nunnari|first2=Giuseppe|date=2016-03-01|title=On a Possible Unified Scaling Law for Volcanic Eruption Durations|url=http://www.nature.com/articles/srep22289|journal=Scientific Reports|language=en|volume=6|[https://en.wikipedia.org/wiki/International_Standard_Serial_Number ISSN]=2045-2322|[https://en.wikipedia.org/wiki/PubMed_Central PMC] = 4772095}}</ref> 人类对刺激强度的判断<ref name = "s">Stevens, S. S. (1957). On the psychophysical law. Psychological Review, 64, 153-181</ref><ref name = "ts" >Staddon, J. E. R.  (1978).  Theory of behavioral power functions. Psychological Review, 85, 305-320.</ref>  ,等等<ref name="N10">Clauset, A.; Shalizi, C. R.; Newman, M. E. J. (2009). "Power-Law Distributions in Empirical Data". SIAM Review. 51 (4): 661–703. [https://arxiv.org/abs/0706.1062 arXiv:0706.1062 Freely accessible.] [http://adsabs.harvard.edu/abs/2009SIAMR..51..661C Bibcode:2009SIAMR..51..661C.] [https://doi.org/10.1137/070710111 doi:10.1137/070710111]</ref>
  
 不过很少有经验分布符合完整的幂律分布,更确切地说,他们通常是遵循幂律尾部的规律。在许多复杂介质中,[https://en.wikipedia.org/wiki/Acoustic_attenuation 声衰减(Acoustic attenuation )]遵循宽频带内的频率幂律;揭示生物变量之间关系的[https://en.wikipedia.org/wiki/Allometric_scaling 异速标度律(Allometric_scaling )]是自然界中已知的最著名的幂律函数之一。
+
 不过很少有经验分布符合完整的幂律分布,更确切地说,他们通常是遵循幂律尾部的规律。在许多复杂介质中,[https://en.wikipedia.org/wiki/Acoustic_attenuation 声衰减(Acoustic attenuation )]遵循宽频带内的频率幂律;揭示生物变量之间关系的[https://en.wikipedia.org/wiki/Allometric_scaling 异速标度律(Allometric_scaling ]是自然界中已知的最著名的幂律函数之一。
  
 
==性质==
 
==性质==
第17行: 第31行:
  
  
 幂律的一个属性是它们的标度不变性。给定一个关系<math>f(x) = ax^{-k}</math> ,将参数 <math>x</math>标度一个常量 <math>c</math> 只会导致函数本身的比例标度,公式表达为:<math>f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x)</math>,此处,<math>\propto</math> 表示成正比(正比例)。也就是说将参数标度常量<math>c</math>,那么对应原始幂律关系乘以常量[[File:C^-k.svg|30px|frameless]] 。因此, 所有具有特定标度指数的幂律都等效于常量因子(的标度), 因为每个幂律函数都只是其他情况的缩放而已。
+
 幂律的一个属性是它们的标度不变性。给定一个关系<math>f(x) = ax^{-k}</math> ,将参数 <math>x</math>标度一个常量 <math>c</math> 只会导致函数本身的比例标度,公式表达为:<math>f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x)</math>,此处,<math>\propto</math> 表示成正比(正比例)。也就是说将参数标度常量<math>c</math>,那么对应原始幂律关系乘以常量<math>{c}^{-k} </math>  。因此, 所有具有特定标度指数的幂律都等效于常量因子(的标度), 因为每个幂律函数都只是其他情况的缩放而已。
  
 如果我们取用两者(<math>f(x)</math> 和 <math>x</math>)的对数,会得到一个线性关系,呈现在双对数图上就是一条直线,这通常被看作幂律的标志。对于实际数据, 这种线性是幂律关系数据的必要条件, 但并不是充分条件。实际上, 有许多方法可以生成模拟此指数行为的有限数量的数据, 但在它们的渐近极限中, 不是真正的幂律 (例如, 如果某些数据的生成过程遵循对数正态分布)。因此, 准确地拟合和验证幂律模型是统计研究的一个活跃领域; 详见下文。
+
 如果我们取用两者(<math>f(x)</math> 和 <math>x</math>)的对数,会得到一个线性关系,呈现在双对数图上就是一条直线,这通常被看作幂律的标志。对于实际数据, 这种线性是幂律关系数据的必要条件, 但并不是充分条件。实际上, 有许多方法可以生成模拟此指数行为的有限数量的数据, 但在它们的渐近极限中, 不是真正的幂律 (例如, 如果某些数据的生成过程遵循对数正态分布)。因此, 准确地拟合和验证幂律模型是统计研究的一个活跃领域 详见下文。
  
 
===缺失完备定义的均值(Lack of well-defined average value)===
 
===缺失完备定义的均值(Lack of well-defined average value)===
第26行: 第40行:
 
 仅当<math> k > 2 </math>, <math>x^{-k}</math> 在 <math>x \in [1,\infty)</math>具有完备定义的均值  ; 当<math>k >3</math> 时,<math>x^{-k}</math> 具有有限的[https://en.wikipedia.org/wiki/Variance 方差];
 
 仅当<math> k > 2 </math>, <math>x^{-k}</math> 在 <math>x \in [1,\infty)</math>具有完备定义的均值  ; 当<math>k >3</math> 时,<math>x^{-k}</math> 具有有限的[https://en.wikipedia.org/wiki/Variance 方差];
  
 自然界中, 大多数幂率分布的指数使得其具有完备定义的均值(K>2嘛),但是方差不是有限的,这意味着它们有可能成为“黑天鹅”行为。下面这个思维实验呈现了这个想法:  假设你和你的朋友一起在一个房间里估算平均月收入,然后世界上最富有的人进入房间,他每月收入约10亿美元,那么房间里的平均收入会怎么样?   
+
 自然界中, 大多数幂率分布的指数使得其具有完备定义的均值(K>2嘛),但是方差不是有限的,这意味着它们有可能成为“黑天鹅”行为<ref name="bs">{{Cite journal|[https://en.wikipedia.org/wiki/ArXiv arXiv]=cond-mat/0412004|title=Power laws, Pareto distributions and Zipf's law|journal=Cities|volume=30|issue=2005|pages=323–351|last1= Newman|first1=M. E. J.|last2=Reggiani|first2=Aura|last3=Nijkamp|first3=Peter|year=2004}}</ref> 。下面这个思维实验<ref name="CCSSCS9">9na CEPAL Charlas Sobre Sistemas Complejos Sociales (CCSSCS): [https://www.youtube.com/watch?v=4uDSEs86xCI Leyes de potencias] </ref> 呈现了这个想法:  假设你和你的朋友一起在一个房间里估算平均月收入,然后世界上最富有的人进入房间,他每月收入约10亿美元,那么房间里的平均收入会怎么样?   
 +
 
 +
我们又将收入分布服从幂律现象称为[https://en.wikipedia.org/wiki/帕累托_distribution 帕累托分布](例如,美国人的资产净值服从指数为2的幂律分布)。一方面,这使得应用基于方差和标准差的传统统计(例如回归分析)失效。另一方面,这或许可通过采取有效的干预手段解决一些问题<ref name="CCSSCS9"/>,例如,可以应用到管理汽车尾气排放,这个问题服从幂律分布(极少数汽车导致大多数污染),那么理论上从道路上消除那些极少数汽车就足以减少总排放量。<ref name="mm">Malcolm Gladwell (2006), Million-Dollar Murray; [https://web.archive.org/web/20150318142026/http://gladwell.com/million-dollar-murray/ "Archived copy"]. Archived from [http://gladwell.com/million-dollar-murray/ the original] on 2015-03-18. Retrieved 2015-06-14.</ref>
  
我们又将收入分布服从幂律现象称为[https://en.wikipedia.org/wiki/帕累托_distribution 帕累托分布](例如,美国人的资产净值服从指数为2的幂律分布)。一方面,这使得应用基于方差和标准差的传统统计(例如回归分析)失效。另一方面,这或许可通过采取有效的干预手段解决一些问题,例如,可以应用到汽车尾气排放,这个问题服从幂律分布(极少数汽车导致大多数污染),那么理论上从道路上消除那些极少数汽车就足以减少总排放量。
 
  
 然而,幂律分布的中位数确实存在: 对幂律<math>x^{-k}</math> ,与指数k > 1,它取 2<sup>1/(''k'' – 1)</sup>''x''<sub>min</sub>,其中''x''<sub>min</sub>时幂律所适用的最小值。
+
 然而,幂律分布的中位数确实存在: 对幂律<math>x^{-k}</math> ,与指数k > 1,它取 2<sup>1/(''k'' – 1)</sup>''x''<sub>min</sub>,其中''x''<sub>min</sub>时幂律所适用的最小值。<ref>[https://arxiv.org/pdf/cond-mat/0412004.pdf  Newman, Mark EJ. "Power laws, Pareto distributions and Zipf's law." Contemporary physics 46.5 (2005): 323-351.]</ref>
  
 
===普适性(Universality)===   
 
===普适性(Universality)===   
  
 
 幂律与特定标度指数的等价性在产生幂律关系的动力学过程中有更深层次的渊源。   
 
 幂律与特定标度指数的等价性在产生幂律关系的动力学过程中有更深层次的渊源。   
 例如, 在物理学中, 热力系统中的[https://en.wikipedia.org/wiki/Phase_transition 相变]与某些量呈现幂律分布有关, 它们的指数被称为系统的[https://en.wikipedia.org/wiki/Critical_exponent 临界指数( critical exponents)]。具有相同的临界指数的不同系统——即它们在接近[https://en.wikipedia.org/wiki/Critical_point_(thermodynamics) 临界状态(criticality)]时显示相同的标度行为——可以通过[https://en.wikipedia.org/wiki/Renormalization_group 重整化理论]来证明,他们的基本动力学相同。例如, 水和 CO2 在沸点上的行为在相同的普适类中, 因为它们具有相同的临界指数。   
+
 例如, 在物理学中, 热力系统中的[https://en.wikipedia.org/wiki/Phase_transition 相变]与某些量呈现幂律分布有关, 它们的指数被称为系统的[https://en.wikipedia.org/wiki/Critical_exponent 临界指数( critical exponents)]。具有相同的临界指数的不同系统——即它们在接近[https://en.wikipedia.org/wiki/Critical_point_(thermodynamics) 临界状态(criticality)]时显示相同的标度行为——可以通过[https://en.wikipedia.org/wiki/Renormalization_group 重整化理论]来证明,他们的基本动力学相同。例如, 水和 CO<sub>2</sub> 在沸点上的行为在相同的普适类中, 因为它们具有相同的临界指数。   
 事实上, 几乎所有的物质相变都是由一小套普适类描述的。对于各种[https://en.wikipedia.org/wiki/Self-organized_criticality 自组织的临界系统 (self-organized critical)], 也进行了类似的观察, 虽然不是很全面, 但在这些系统中,系统的临界点是吸引子。在形式上, 这种动力学的共享被称为[https://en.wikipedia.org/wiki/Universality_(dynamical_systems) 普适性(universality)], 而通常认为具有精确相同的临界指数的系统属于[https://en.wikipedia.org/wiki/Renormalization_group#Relevant_and_irrelevant_operators,_universality_classes 同一种普适类(universality 5class)]。
+
 事实上, 几乎所有的物质相变都是由一小套普适类描述的。对于各种[https://en.wikipedia.org/wiki/Self-organized_criticality 自组织的临界系统 (self-organized critical)],  人们 也进行了类似的观察, 虽然不是很全面, 但在这些系统中,系统的临界点是吸引子。在形式上, 这种动力学的共享 被称为[https://en.wikipedia.org/wiki/Universality_(dynamical_systems) 普适性(universality)], 而 我们 通常认为具有精确相同的临界指数的系统属于[https://en.wikipedia.org/wiki/Renormalization_group#Relevant_and_irrelevant_operators,_universality_classes 同一种普适类(universality 5class)]。
  
 
==幂律函数(Power-law functions)==   
 
==幂律函数(Power-law functions)==   
  
  
 科学家对幂率关系感兴趣,部分是因为某些简单机制生成幂率关系所展示出的简洁性。一些数据幂律关系的演示可以指向特定的机制,这些机制不仅是自然现象的基础,还可以表明与其他看似不相关的系统之间的深层联系; 参见上文的[https://en.wikipedia.org/wiki/Power_law#Universality 普适性] 。物理世界中幂律关系的无处不在, 部分是由于[https://en.wikipedia.org/wiki/Dimensional_analysis 维度的限制];而在[https://en.wikipedia.org/wiki/Complex_systems 复杂系统]中, 幂律通常被认为是层级或[https://en.wikipedia.org/wiki/Stochastic_processes 特定随机过程] 的特征。几个显著例子是[https://en.wikipedia.org/wiki/帕累托_principle 帕累托的收入分配定律], [https://en.wikipedia.org/wiki/Fractals 分形]的结构自相似性, 以及生物系统中的[https://en.wikipedia.org/wiki/Allometric_law 标度定律]。研究幂律关系的起源, 并致力于现实世界中对它的观察和验证, 是[https://en.wikipedia.org/wiki/Physics 物理学]、[https://en.wikipedia.org/wiki/Computer_science 计算机科学]、[https://en.wikipedia.org/wiki/Linguistics 语言学]、[https://en.wikipedia.org/wiki/Geophysics 地球物理]、[https://en.wikipedia.org/wiki/Neuroscience 神经科学]、[https://en.wikipedia.org/wiki/Sociology 社会学]、[https://en.wikipedia.org/wiki/Economics 经济学]等许多领域研究的一个热门话题。
+
 科学家对幂率关系感兴趣,部分是因为某些简单机制生成幂率关系所展示出的简洁性。<ref name="jizhi">Sornette, Didier (2006). Critical Phenomena in Natural Sciences: Chaos, Fractals, Self-organization and Disorder: Concepts and Tools. Springer Series in Synergetics (2nd ed.). Heidelberg: Springer. ISBN 978-3-540-30882-9.</ref> 一些数据幂律关系的演示可以指向特定的机制,这些机制不仅是自然现象的基础,还可以表明与其他看似不相关的系统之间的深层联系; 参见上文的[https://en.wikipedia.org/wiki/Power_law#Universality 普适性] 。物理世界中幂律关系的无处不在, 部分是由于[https://en.wikipedia.org/wiki/Dimensional_analysis 维度的限制]<ref name="simon">Simon, H. A. (1955). "On a Class of Skew Distribution Functions". [https://en.wikipedia.org/wiki/Biometrika Biometrika.] 42 (3/4): 425–440. [https://doi.org/10.2307/2333389 doi:10.2307/2333389.] [https://www.jstor.org/stable/2333389 JSTOR 2333389.]</ref> ;而在[https://en.wikipedia.org/wiki/Complex_systems 复杂系统]中, 幂律通常被认为是层级或[https://en.wikipedia.org/wiki/Stochastic_processes 特定随机过程] 的特征。几个显著例子是[https://en.wikipedia.org/wiki/帕累托_principle 帕累托的收入分配定律], [https://en.wikipedia.org/wiki/Fractals 分形]的结构自相似性, 以及生物系统中的[https://en.wikipedia.org/wiki/Allometric_law 标度定律]。研究幂律关系的起源, 并致力于现实世界中对它的观察和验证, 是[https://en.wikipedia.org/wiki/Physics 物理学]、[https://en.wikipedia.org/wiki/Computer_science 计算机科学]、[https://en.wikipedia.org/wiki/Linguistics 语言学]、[https://en.wikipedia.org/wiki/Geophysics 地球物理]、[https://en.wikipedia.org/wiki/Neuroscience 神经科学]、[https://en.wikipedia.org/wiki/Sociology 社会学]、[https://en.wikipedia.org/wiki/Economics 经济学]等许多领域研究的一个热门话题。
  
 
 不过,最近对幂律的兴趣主要来自于对[https://en.wikipedia.org/wiki/Probability_distributions 概率分布]的研究:似乎有大量的分布遵循幂律的形式,至少它们右尾是符合的。这些大型事件的行为将这些数量与[https://en.wikipedia.org/wiki/Extreme_value_theory 大偏差理论(theory of large deviations)]的研究联系起来(也称为[https://en.wikipedia.org/wiki/Extreme_value_theory 极值理论(extreme value theory)]),它考虑了诸如[https://en.wikipedia.org/wiki/Stock_market_crash 股市崩盘]和[https://en.wikipedia.org/wiki/Natural_disaster 大型自然灾害]等极其罕见的事件的发生频率。在统计分布的研究中更倾向于称之为“幂律”。
 
 不过,最近对幂律的兴趣主要来自于对[https://en.wikipedia.org/wiki/Probability_distributions 概率分布]的研究:似乎有大量的分布遵循幂律的形式,至少它们右尾是符合的。这些大型事件的行为将这些数量与[https://en.wikipedia.org/wiki/Extreme_value_theory 大偏差理论(theory of large deviations)]的研究联系起来(也称为[https://en.wikipedia.org/wiki/Extreme_value_theory 极值理论(extreme value theory)]),它考虑了诸如[https://en.wikipedia.org/wiki/Stock_market_crash 股市崩盘]和[https://en.wikipedia.org/wiki/Natural_disaster 大型自然灾害]等极其罕见的事件的发生频率。在统计分布的研究中更倾向于称之为“幂律”。
第47行: 第62行:
 
 在实际情况中,近似为幂律分布的情况<math>o(x^k)</math>通常包括一个偏差项,它可以表示观察到的值<math>\varepsilon</math>的不确定性(可能是测量或抽样误差),或者提供一种简单的方法使观察偏离幂律函数(可能是因为随机):<math>y = ax^k + \varepsilon.\!</math>   
 
 在实际情况中,近似为幂律分布的情况<math>o(x^k)</math>通常包括一个偏差项,它可以表示观察到的值<math>\varepsilon</math>的不确定性(可能是测量或抽样误差),或者提供一种简单的方法使观察偏离幂律函数(可能是因为随机):<math>y = ax^k + \varepsilon.\!</math>   
  
  数学角度,一个严格的幂律函数不可能是概率分布,但一个被截断的幂律函数的分布是可能的:<math>p(x) = C x^{-\alpha}</math> ,对于<math>x > x_\text{min}</math> ,指数<math>\alpha</math> (希腊字母 [https://en.wikipedia.org/wiki/Alpha alpha],注意不要与之前使用的标度系数<math>a</math>混淆)大于1(否则尾部具有无限区域), ,最小值<math>x > x_\text{min}</math>是必须存在的。否则,当''x''接近0时, 分布具有无限面积, 常量因子''C''是一个标度因子, 以确保总面积为 1, 这是概率分布的基本要求。更常见的是使用渐近幂律——只在极限情况下成立。指数通常在 <math>2 < \alpha < 3</math>之间,不过并不绝对。详细信息请参阅下面的[http://wiki.swarma.net/index.php/%E5%B9%82%E5%BE%8B%E5%88%86%E5%B8%83#.E5.B9.82.E5.BE.8B.E6.A6.82.E7.8E.87.E5.88.86.E5.B8.83.EF.BC.88Power-law_probability_distributions.EF.BC.89 幂律概率分布(power-law probability distributions )]。
+
  数学角度 来说 ,一个严格的幂律函数不可能是概率分布,但一个被截断的幂律函数的分布是可能的:<math>p(x) = C x^{-\alpha}</math> ,对于<math>x > x_\text{min}</math> ,指数<math>\alpha</math> (希腊字母 [https://en.wikipedia.org/wiki/Alpha alpha],注意不要与之前使用的标度系数<math>a</math>混淆)大于1(否则尾部具有无限区域), ,最小值<math>x > x_\text{min}</math>是必须存在的。否则,当''x''接近0时, 分布具有无限面积, 常量因子''C''是一个标度因子, 以确保总面积为 1, 这是概率分布的基本要求。更常见的是使用渐近幂律——只在极限情况下成立。指数通常在 <math>2 < \alpha < 3</math>之间,不过 并不绝对<ref name="N10" /> 。详细信息请参阅下面的[http://wiki.swarma.net/index.php/%E5%B9%82%E5%BE%8B%E5%88%86%E5%B8%83#.E5.B9.82.E5.BE.8B.E6.A6.82.E7.8E.87.E5.88.86.E5.B8.83.EF.BC.88Power-law_probability_distributions.EF.BC.89 幂律概率分布(power-law probability distributions )]。
  
  
第53行: 第68行:
  
  
 从物理学(例如沙堆雪崩),生物学(例如物种灭绝和体重)以及社会科学(例如城市规模和收入)中,已经确定了超过一百种幂律分布。其中包括:
+
 从物理学(例如沙堆雪崩),生物学(例如物种灭绝和体重)以及社会科学(例如城市规模和收入<ref>{{cite journal | last1 = Andriani | first1 = P. | last2 = McKelvey | first2 = B. | year = 2007 | title = Beyond Gaussian averages: redirecting international business and management research toward extreme events and power laws| journal = Journal of International Business Studies | volume = 38 | issue = 7| pages = 1212–1230 | url = https://link.springer.com/10.1057/palgrave.jibs.8400324}}</ref> )中,已经确定了超过一百种幂律分布。其中包括:
 
* 气溶胶光学中的[https://en.wikipedia.org/wiki/Angstrom_exponent Angstrom指数]
 
* 气溶胶光学中的[https://en.wikipedia.org/wiki/Angstrom_exponent Angstrom指数]
 
* 复杂介质中[https://en.wikipedia.org/wiki/Acoustic_attenuation 声衰减]的频率依赖性
 
* 复杂介质中[https://en.wikipedia.org/wiki/Acoustic_attenuation 声衰减]的频率依赖性
第64行: 第79行:
 
* 分别由[https://en.wikipedia.org/wiki/Gravitational_potential 引力势]和[https://en.wikipedia.org/wiki/Electrostatic_potential静电势]证明,[https://en.wikipedia.org/wiki/Newtonian_gravity 牛顿引力]和[https://en.wikipedia.org/wiki/Electrostatics 静电学]的[https://en.wikipedia.org/wiki/Inverse-square_law 逆平方定律(inverse-square laws )]
 
* 分别由[https://en.wikipedia.org/wiki/Gravitational_potential 引力势]和[https://en.wikipedia.org/wiki/Electrostatic_potential静电势]证明,[https://en.wikipedia.org/wiki/Newtonian_gravity 牛顿引力]和[https://en.wikipedia.org/wiki/Electrostatics 静电学]的[https://en.wikipedia.org/wiki/Inverse-square_law 逆平方定律(inverse-square laws )]
 
* 作为[https://en.wikipedia.org/wiki/Attractor 吸引子( attrator)]的临界点的自组织临界性
 
* 作为[https://en.wikipedia.org/wiki/Attractor 吸引子( attrator)]的临界点的自组织临界性
* 雨淋细胞(rain-shower cells)的大小,旋风中的能量耗散以及地球和火星上[https://en.wikipedia.org/wiki/Dust_devils 尘卷风 ]的直径
+
* 雨淋细胞<ref name=“Machado”>{{cite journal|vauthors=Machado L, Rossow, WB| title=Structural characteristics and radial properties of tropical cloud clusters | journal= Monthly Weather Review | volume = 121 | pages=3234–3260 | year=1993}}</ref>  (rain-shower cells)的大小,旋风中的能量耗散<ref name="Corral">Corral, A, Osso, A, Llebot, JE (2010). [https://arxiv.org/pdf/0910.0054 "Scaling of tropical cyclone dissipation"]. Nature Physics. 6: 693–696. [https://arxiv.org/abs/0910.0054 arXiv:0910.0054 Freely accessible]. [http://adsabs.harvard.edu/abs/2010NatPh...6..693C Bibcode:2010NatPh...6..693C.] [https://doi.org/10.1038/nphys1725 doi:10.1038/nphys1725]</ref> 以及地球和火星上[https://en.wikipedia.org/wiki/Dust_devils 尘卷风 ]的直径<ref name=Lorenz>{{cite journal|vauthors=Lorenz RD| year=2009| title=Power Law of Dust Devil Diameters on Earth and Mars | journal=Icarus | volume = 203 | pages=683–684 }}</ref>
* [https://en.wikipedia.org/wiki/Exponential_growth 指数增长]和随机观测(或随机死亡)
+
* [https://en.wikipedia.org/wiki/Exponential_growth 指数增长]和随机观测(或随机死亡)<ref name="ReedHughes">Reed W.J.; Hughes B.D. From gene families and genera to incomes and internet file sizes: Why power laws are so common in nature. Phys Rev E 2002, 66, 067103; http://www.math.uvic.ca/faculty/reed/PhysRevPowerLawTwoCol.pdf</ref>
* 指数增长和[https://en.wikipedia.org/wiki/Diffusion_of_innovations 创新指数扩散]的进展
+
* 指数增长和[https://en.wikipedia.org/wiki/Diffusion_of_innovations 创新指数扩散]的进展<ref name="HilbertPowerLaw">Hilbert, Martin (2013). "Scale-free power-laws as interaction between progress and diffusion". Complexity. 19: 56–65. [http://adsabs.harvard.edu/abs/2014Cmplx..19d..56H Bibcode:2014Cmplx..19d..56H.] [https://doi.org/10.1002/cplx.21485 doi:10.1002/cplx.21485.]</ref>
 
* [https://en.wikipedia.org/wiki/Highly_optimized_tolerance 最优抗干扰理论(HOT)]
 
* [https://en.wikipedia.org/wiki/Highly_optimized_tolerance 最优抗干扰理论(HOT)]
 
* [https://en.wikipedia.org/wiki/Van_der_Waals_force 范德华力模型]
 
* [https://en.wikipedia.org/wiki/Van_der_Waals_force 范德华力模型]
第83行: 第98行:
 
* 语料库分析和人口分布中的[https://en.wikipedia.org/wiki/Zipf%27s_law Zipf定律],其中项目或事件的频率与其频率等级成反比(即,第二最频繁的项目/事件发生频率是最频繁项目的一半,第三频率项目/事件发生的频率是最频繁项目的三分之一,以此类推)
 
* 语料库分析和人口分布中的[https://en.wikipedia.org/wiki/Zipf%27s_law Zipf定律],其中项目或事件的频率与其频率等级成反比(即,第二最频繁的项目/事件发生频率是最频繁项目的一半,第三频率项目/事件发生的频率是最频繁项目的三分之一,以此类推)
 
* 在[https://en.wikipedia.org/wiki/Safe_operating_area 安全工作区]与功率半导体最大同时电流和电压
 
* 在[https://en.wikipedia.org/wiki/Safe_operating_area 安全工作区]与功率半导体最大同时电流和电压
* [https://en.wikipedia.org/wiki/State_of_matter 超临界状态的物质]和[https://en.wikipedia.org/wiki/Supercritical_fluids 超临界流体],如[https://en.wikipedia.org/wiki/Heat_capacity 热容]和[https://en.wikipedia.org/wiki/Viscosity 粘度]的超临界指数
+
* [https://en.wikipedia.org/wiki/State_of_matter 超临界状态的物质]和[https://en.wikipedia.org/wiki/Supercritical_fluids 超临界流体],如[https://en.wikipedia.org/wiki/Heat_capacity 热容]和[https://en.wikipedia.org/wiki/Viscosity 粘度]的超临界指数<ref>{{Cite journal | url =  https://www.nature.com/articles/ncomms3331|[https://en.wikipedia.org/wiki/PubMed#PubMed_identifier PMID]=23949085|title=Thermodynamic behaviour of supercritical matter|year=2013|last1=Bolmatov|first1=D.|last2=Brazhkin|first2=V. V.|last3=Trachenko|first3=K.|journal=Nature Communications|volume=4|pages=2331|[https://en.wikipedia.org/wiki/ArXiv arXiv] = 1303.3153v3 }}</ref>
 
* [https://en.wikipedia.org/wiki/Zeta_distribution Zeta分布(离散)]
 
* [https://en.wikipedia.org/wiki/Zeta_distribution Zeta分布(离散)]
 
* [https://en.wikipedia.org/wiki/Yule%E2%80%93Simon_distribution Yule-Simon分布(离散)]
 
* [https://en.wikipedia.org/wiki/Yule%E2%80%93Simon_distribution Yule-Simon分布(离散)]
第90行: 第105行:
 
* [https://en.wikipedia.org/wiki/Scale-free_network 无标度网络模型]
 
* [https://en.wikipedia.org/wiki/Scale-free_network 无标度网络模型]
 
* [https://en.wikipedia.org/wiki/Pink_noise 粉红噪音]
 
* [https://en.wikipedia.org/wiki/Pink_noise 粉红噪音]
* [https://en.wikipedia.org/wiki/Power_law#cite_note-Klaus-4 神经元雪崩(由非活动框架括起来的连续活动帧序列可以称为雪崩)]
+
* [https://en.wikipedia.org/wiki/Power_law#cite_note-Klaus-4 神经元雪崩<ref name="Klaus"/> (由非活动框架括起来的连续活动帧序列可以称为雪崩)]
 
* 流数定律和流长定律([https://en.wikipedia.org/wiki/Robert_E._Horton Horton]描述河流系统的定律)
 
* 流数定律和流长定律([https://en.wikipedia.org/wiki/Robert_E._Horton Horton]描述河流系统的定律)
 
* 城市人口([https://en.wikipedia.org/wiki/Gibrat%27s_law Gibrat定律])
 
* 城市人口([https://en.wikipedia.org/wiki/Gibrat%27s_law Gibrat定律])
 
* [https://en.wikipedia.org/wiki/Bibliogram 书目]和文字中的单词频率(Zipf定律)
 
* [https://en.wikipedia.org/wiki/Bibliogram 书目]和文字中的单词频率(Zipf定律)
 
* wiki上的[https://en.wikipedia.org/wiki/90%E2%80%939%E2%80%931_principle 90-9-1原则](也称为[https://en.wikipedia.org/wiki/1%25_Rule_(Internet_culture) 1%规则])
 
* wiki上的[https://en.wikipedia.org/wiki/90%E2%80%939%E2%80%931_principle 90-9-1原则](也称为[https://en.wikipedia.org/wiki/1%25_Rule_(Internet_culture) 1%规则])
* [https://en.wikipedia.org/wiki/Power_law#cite_note-24 以其作品平均价格排序的艺术家分布]
+
* [https://en.wikipedia.org/wiki/Power_law#cite_note-24 以其作品平均价格排序的艺术家分布]<ref>{{cite journal | last1 = Etro | first1 = F. | last2 = Stepanova | first2 = E. | year = 2018 | title = Power-laws in art | url = https://linkinghub.elsevier.com/retrieve/pii/S0378437118304813 | journal = Physica A: Statistical Mechanics and its Applications }}</ref>
* [https://en.wikipedia.org/wiki/Power_law_of_cache_misses 理查森关于暴力冲突(战争与恐怖主义)严重程度的法律]
+
* [https://en.wikipedia.org/wiki/Power_law_of_cache_misses 理查森关于暴力冲突(战争与恐怖主义)严重程度的法律]<ref>{{cite book|author=Lewis Fry Richardson|title=The Statistics of Deadly Quarrels|year=1950}}</ref>
 
* CPU的高速缓存大小与高速缓存未命中数之间的关系遵循[https://en.wikipedia.org/wiki/Power_law_of_cache_misses 高速缓存未命中的幂律]
 
* CPU的高速缓存大小与高速缓存未命中数之间的关系遵循[https://en.wikipedia.org/wiki/Power_law_of_cache_misses 高速缓存未命中的幂律]
 
* [https://en.wikipedia.org/wiki/Curie-von_Schweidler_law Curie-von Schweidler law]对直流电压输入的介电响应
 
* [https://en.wikipedia.org/wiki/Curie-von_Schweidler_law Curie-von Schweidler law]对直流电压输入的介电响应
* 淡水鱼类的物种丰富度(物种数量)
+
* 淡水鱼类的物种丰富度(物种数量)<ref>{{cite book|author=Albert, J. S., H. J. Bart, & R. E. Reis|year=2011|chapter=Species richness & cladal diversity|pages=89–104|title=Historical Biogeography of Neotropical Freshwater Fishes|editor=Albert, J. S., & R. E. Reis|publisher=University of California Press|location=Berkeley}}</ref>
* 抗地震阻尼器中速度关系的阻尼力
+
* 抗地震阻尼器中速度关系的阻尼力
 
+
  
 
===其他形式(Variants)===
 
===其他形式(Variants)===
第109行: 第123行:
 
[[File:Plot of various initial mass functions.svg.png|300px|缩略图|右|[https://en.wikipedia.org/wiki/Initial_mass_function 初始质量函数]的一些模型遵循分段幂律; Kroupa(2001)红色。]]
 
[[File:Plot of various initial mass functions.svg.png|300px|缩略图|右|[https://en.wikipedia.org/wiki/Initial_mass_function 初始质量函数]的一些模型遵循分段幂律; Kroupa(2001)红色。]]
  
 分段幂律是一个分段函数,由两个或多个的幂律函数组成,再加上一个阈值。例如,有两个幂律:
+
 分段幂律是一个分段函数,由两个或多个的幂律函数组成,再加上一个阈值。例如,有两个幂律<ref name="Einar H">Jóhannesson, Einar H. (2006) [https://pattern.swarma.org/paper?id=25f7bb1e-6da5-11ea-8ee8-0242ac1a0005 "Afterglow Light Curves and Broken Power Laws: A Statistical Study"].The Astrophysical Journal, Retrieved.640, 07.(L5)</ref>
[[File:Broken.png|350px|frameless | 左]]
+
[[File:Broken.png|350px|frameless | 左]]
 
+
 
+
 
+
 
+
 
+
 
+
 
+
 
+
  
 
====具有指数截止的幂律分布(Power law with exponential cutoff)====   
 
====具有指数截止的幂律分布(Power law with exponential cutoff)====   
  
 具有指数截止的幂律就是幂律乘以一个指数函数:
+
 具有指数截止的幂律就是幂律乘以一个指数函数<ref>{{cite journal |[https://en.wikipedia.org/wiki/ArXiv arXiv]=0706.1062|title=POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA |url = https://epubs.siam.org/[https://en.wikipedia.org/wiki/Digital_object_identifier doi]/10.1137/070710111 | volume=51 |year=2009 |journal=SIAM Review |pages=661–703 | last1 = Clauset | first1 = Aaron}}</ref>
 
   
 
   
 
<math>f(x) \propto x^{\alpha}e^{\beta x}.</math>   
 
<math>f(x) \propto x^{\alpha}e^{\beta x}.</math>   
  
 
====曲线幂律(Curved power law)====
 
====曲线幂律(Curved power law)====
[[File:26443a889c020a78d20a607bfbb663be08c6d97b.svg|110px|frameless | 左]] 
+
<ref>{{cite journal |url=http://www.mpe.mpg.de/xray/wave/rosat/doc/users-guide/node-files/node188.php |title=Curved-power law |accessdate=2013-07-07}}</ref>
 
+
 
+
 
+
 
+
 
+
 
+
 
+
  
 +
<math>
 +
f(x)\propto </math><math> {x^{\alpha+\beta x}}</math>
  
==幂律概率分布 (Power-law probability distributions ==     
+
==幂律概率分布 Power-law probability distributions==     
  
  
 广义上,幂律概率分布是一个密度函数(或离散情况下的概率质量函数)具有以下形式的分布:  对于较大的<math>x</math>,   
+
 广义上,幂律概率分布是一个密度函数(或离散情况下的概率质量函数)具有以下形式的分布:  对于较大的<math>x</math><ref>N. H. Bingham, C. M. Goldie, and J. L. Teugels, Regular variation. Cambridge University Press, 1989</ref>,   
  
 
<math>P(X>x) \sim L(x) x^{-(\alpha+1)}</math> ,   
 
<math>P(X>x) \sim L(x) x^{-(\alpha+1)}</math> ,   
第165行: 第166行:
 
 在这种分布中,指数衰减项<math>\mathrm{e}^{-\lambda x}</math>最终会在较大的<math>x</math>处超过正常的幂律分布。这种分布无法成比例缩放,因此并不是幂律;不过,它会在截止前的有限区域内近似地缩放。(注意,一般的幂律分布是这种分布的简单形式,即 <math>\lambda=0</math>的指数截止幂律分布。)这种分布是渐近幂律分布的常见替代方法,因为它考虑了有限大小的影响。
 
 在这种分布中,指数衰减项<math>\mathrm{e}^{-\lambda x}</math>最终会在较大的<math>x</math>处超过正常的幂律分布。这种分布无法成比例缩放,因此并不是幂律;不过,它会在截止前的有限区域内近似地缩放。(注意,一般的幂律分布是这种分布的简单形式,即 <math>\lambda=0</math>的指数截止幂律分布。)这种分布是渐近幂律分布的常见替代方法,因为它考虑了有限大小的影响。
  
[https://en.wikipedia.org/wiki/Closure_(mathematics) Tweedie分布]是一族统计模型,其特征是基于可加(additive)与可再生(reproductive)卷积以及标度变换(scale transformation)的[https://en.wikipedia.org/wiki/Closure_(mathematics) 闭包(closure)]。因此,这些模型都表达了方差和均值之间的幂律关系。这些模型作为数学收敛的焦点,类似于正态分布在中心极限定理中所扮演的角色。这种收敛效应解释了为什么在自然过程中, 方差-平均幂律表现得如此广泛, 就像泰勒在生态学中的定律和在物理学中的涨落标度。还可以证明,使用[https://en.wikipedia.org/wiki/Tweedie_distributions 扩展箱( expanding bins) ]的[https://en.wikipedia.org/wiki/Tweedie_distributions 方法]时,这种方差 - 均值幂律分布(variance-to-mean power law)意味着存在1 / f噪声,而1/ f噪声可能是由于Tweedie收敛效应(Tweedie convergence effect)而产生的。   
+
[https://en.wikipedia.org/wiki/Closure_(mathematics) Tweedie分布]是一族统计模型,其特征是基于可加(additive)与可再生(reproductive)卷积以及标度变换(scale transformation)的[https://en.wikipedia.org/wiki/Closure_(mathematics) 闭包(closure)]。因此,这些模型都表达了方差和均值之间的幂律关系。这些模型作为数学收敛的焦点,类似于正态分布在中心极限定理中所扮演的角色。这种收敛效应解释了为什么在自然过程中, 方差-平均幂律表现得如此广泛, 就像泰勒在生态学中的定律和在物理学中的涨落标度<ref name=“Kendal2011a”>{{cite journal | last1 = Kendal | first1 = WS | last2 = Jørgensen | first2 = B | year = 2011 | title = Taylor's power law and fluctuation scaling explained by a central-limit-like convergence | url = https://journals.aps.org/pre/abstract/10.1103/PhysRevE.83.066115 | journal = Phys. Rev. E | volume = 83 | issue = | page = 066115 }}</ref> 。还可以证明,使用[https://en.wikipedia.org/wiki/Tweedie_distributions 扩展箱( expanding bins) ]的[https://en.wikipedia.org/wiki/Tweedie_distributions 方法]时,这种方差 - 均值幂律分布(variance-to-mean power law)意味着存在1 / f噪声,而1/ f噪声可能是由于Tweedie收敛效应(Tweedie convergence effect)而产生的<ref name="Kendal2011b">{{cite journal | last1 = Kendal | first1 = WS | last2 = Jørgensen | first2 = BR | year = 2011 | title = Tweedie convergence: a mathematical basis for Taylor's power law, 1/''f'' noise and multifractality | url = https://journals.aps.org/pre/abstract/10.1103/PhysRevE.84.066120| journal = Phys. Rev. E | volume = 84 | issue = | page = 066120 }}</ref> 。   
  
  
第173行: 第174行:
 
[[File:Log-log plot example.svg.png|300px|缩略图|右|在双对数图上呈现直线是必要的,但对于幂律,没有足够的证据证明直线的斜率就对应于幂律指数。]]
 
[[File:Log-log plot example.svg.png|300px|缩略图|右|在双对数图上呈现直线是必要的,但对于幂律,没有足够的证据证明直线的斜率就对应于幂律指数。]]
  
 虽然已经提出了更成熟更稳健的方法,但通过随机样本检验幂律概率分布的最常用的图形方法还是帕累托双分位图(Pareto quantile-quantile plots )(或[https://en.wikipedia.org/wiki/Q-Q_plot 帕累托Q-Q图]),平均剩余寿命图(mean residual life plot)和双对数图(Pareto quantile-quantile plots)([https://en.wikipedia.org/wiki/Log%E2%80%93log_plot log-log图])。另一种更强大的图形检验法是利用[https://www.jstor.org/stable/1390871?origin=crossref bundles of residual quantile functions 残余分位函数束]。(注意,幂律分布也称为帕累托分布。)这里假设从概率分布中获得随机样本,并且我们想知道分布的尾部是否遵循幂律(换句话说,我们想知道分布是否有“帕累托尾”)。此处随机样本也被称为“数据”。   
+
 虽然 人们 已经提出了更成熟更稳健的方法,但通过随机样本检验幂律概率分布的最常用的图形方法还是帕累托双分位图(Pareto quantile-quantile plots )(或[https://en.wikipedia.org/wiki/Q-Q_plot 帕累托Q-Q图]),平均剩余寿命图(mean residual life plot)<ref>Beirlant, J., Teugels, J. L., Vynckier, P. (1996a) ''Practical Analysis of Extreme Values'', Leuven: Leuven University Press</ref><ref>Coles, S. (2001) ''An introduction to statistical modeling of extreme values''. Springer-Verlag, London.</ref> 和双对数图(Pareto quantile-quantile plots)([https://en.wikipedia.org/wiki/Log%E2%80%93log_plot log-log图])。另一种更强大的图形检验法是利用[https://www.JSTOR.org/stable/1390871?origin=crossref bundles of residual quantile functions 残余分位函数束]<ref name="Diaz">{{cite journal | last1 = Diaz |first1=F. J. | year = 1999 | title = [https://www.JSTOR.org/stable/1390871?origin=crossref Identifying Tail Behavior by Means of Residual Quantile Functions] | journal = Journal of Computational and Graphical Statistics | volume = 8 | issue = 3| pages = 493–509  }}</ref>  。(注意,幂律分布也称为帕累托分布。)这里假设从概率分布中获得随机样本,并且我们想知道分布的尾部是否遵循幂律(换句话说,我们想知道分布是否有“帕累托尾”)。此处随机样本也被称为“数据”。   
  
  
 帕累托Q-Q图是这样绘制的:它将取对数后(样本)数据的[https://en.wikipedia.org/wiki/Quantile 分位数]与取均值为1的指数分布对应的[https://en.wikipedia.org/wiki/Quantile 分位数](或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该怀疑其服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数<math>\alpha</math>(也称为帕累托指数)接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。   
+
 帕累托Q-Q图是这样绘制的:它将取对数后(样本)数据的[https://en.wikipedia.org/wiki/Quantile 分位数]与取均值为1的指数分布对应的[https://en.wikipedia.org/wiki/Quantile 分位数](或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该怀疑其服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数<math>\alpha</math>(也称为帕累托指数)接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。<ref name="Diaz"/>  
  
 另一种检验幂律概率分布的方法 平均剩余寿命图,包含以下步骤:首先对数据取对数,然后将高于第 ''i'' 阶统计量的数据平均值与第 ''i'' 阶统计量进行比较绘制,从''i''&nbsp;=&nbsp;1,&nbsp;...,&nbsp;''n'',其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形; 而这些图形通常被称为[https://doi.org/10.1214/aos/1069362376 Hill horror plots ] 。 
+
 另一种检验幂律概率分布的方法 平均剩余寿命图, 包含以下步骤:首先对数据取对数,然后将高于第 ''i'' 阶统计量的数据平均值与第 ''i'' 阶统计量进行比较绘制,从''i''&nbsp;=&nbsp;1,&nbsp;...,&nbsp;''n'',其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形; 而这些图形通常被称为 Hill horror plots 。 <ref>{{cite journal | last1 = Resnick | first1 = S. I. | year = 1997 | title = [https://projecteuclid.org/euclid.aos/1069362376 Heavy Tail Modeling and Teletraffic Data] | journal = The Annals of Statistics | volume = 25 | issue = | pages = 1805–1869 }}</ref>
  
 双对数图是使用随机样本以图形方式检验尾部分布的另一种方式。使用这个方法必须要谨慎,因为双对数图中呈现直线对幂律概率分布是必要不充分条件,许多非幂律分布在双对数图上也显示为直线。这个方法是将特定数在该分布中的概率估计量的对数 | 对比这个数的对数 |  进行绘图。通常,此估计量是该数据在数据集中出现的次数的比例。如果图中的点在x较大时倾向于“收敛”为直线,则可得出结论,该分布具有“幂律尾”(power-law tail)。目前这些类型的绘图的应用示例已经[https://doi.org/10.1038/35036627 发表]。但这种方法的局限是,需要大量的数据才能使结果可靠。此外,它仅适用于离散(或分组)数据 。 
+
 双对数图是使用随机样本以图形方式检验尾部分布的另一种方式。使用这个方法必须要谨慎,因为双对数图中呈现直线对幂律概率分布是必要不充分条件,许多非幂律分布在双对数图上也显示为直线<ref>{{cite journal | url=http://bactra.org/weblog/491.html|title=So You Think You Have a Power Law — Well Isn't That Special?|author=|date=|website=bactra.org|accessdate=27 March 2018}}</ref><ref>{{cite journal|title=Power-law distributions in empirical data | url = https://epubs.siam.org/doi/10.1137/070710111 |first1=Aaron|last1=Clauset|first2=Cosma Rohilla|last2=Shalizi|first3=M. E. J.|last3=Newman|date=4 November 2009|publisher=|journal=SIAM Review|volume=51|issue=4|pages=661–703|[https://en.wikipedia.org/wiki/ArXiv arXiv]=0706.1062}}</ref>  。这个方法是将特定数在该分布中的概率估计量的对数 | 对比这个数的对数 |  进行绘图。通常,此估计量是该数据在数据集中出现的次数的比例。如果图中的点在x较大时倾向于“收敛”为直线,则可得出结论,该分布具有“幂律尾”(power-law tail)。目前这些类型的绘图的应用示例已经[https://doi.org/10.1038/35036627 发表]<ref>{{cite journal | last1 = Jeong|first1= H|last2= Tombor|first2= B. Albert|last3= Oltvai|first3= Z.N.|last4= Barabasi|first4= A.-L. | year = 2000 | title = The large-scale organization of metabolic networks | url = https://www.nature.com/articles/35036627 | journal = Nature | volume = 407 | issue = 6804| pages = 651–654 }}</ref> 。但这种方法的局限是,需要大量的数据才能使结果可靠。此外,它仅适用于离散(或分组)数据。
 
+
不过,目前已经提出了使用随机样本检验幂律概率分布的另一种图形方法。该方法包括绘制对数变换样本的束,是最早提出使用随机样本探索矩的存在和矩生成函数的工具,基于[https://www.jstor.org/stable/1390871?origin=crossref&seq=1#page_scan_tab_contents 残差分位函数(RQF)](也称为残差百分位函数),它提供了许多众所周知的概率分布的尾部行为的完整表征,包括幂律分布与其他类型的重尾,甚至非重尾分布的分布。这种方法绘制的图形没有上面提到的平均剩余寿命图、双对数图和帕累托 Q-Q图的缺点,它们对异常值很敏感,能够直观地检验具有小<math>\alpha</math>值的幂律,并且不适用于分析大量数据。此外,其他分布类型的尾部也可以用这个方法观察检验
+
  
 +
不过,目前已经提出了使用随机样本检验幂律概率分布的另一种图形方法。该方法包括绘制对数变换样本的束,是最早提出使用随机样本探索矩的存在和矩生成函数的工具,基于[https://www.JSTOR.org/stable/1390871?origin=crossref&seq=1#page_scan_tab_contents 残差分位函数(RQF)](也称为残差百分位函数)<ref>{{cite journal | last1 = Arnold | first1 = B. C. | last2 = Brockett | first2 = P. L. | year = 1983 | title = When does the βth percentile residual life function determine the distribution? | url = https://pubsonline.informs.org/doi/abs/10.1287/opre.31.2.391| journal = Operations Research | volume = 31 | issue = 2| pages = 391–396 }}</ref> <ref>{{cite journal | last1 = Joe | first1 = H. | last2 = Proschan | first2 = F. | year = 1984 | title = Percentile residual life functions | url = https://pubsonline.informs.org/doi/abs/10.1287/opre.32.3.668| journal = Operations Research | volume = 32 | issue = 3| pages = 668–678 }}</ref> <ref>Joe, H. (1985), "Characterizations of life distributions from percentile residual lifetimes", ''Ann. Inst. Statist. Math.'' 37, Part A, 165–172.</ref> <ref>{{cite journal | last1 = Csorgo | first1 = S. | last2 = Viharos | first2 = L. | year = 1992 | title = Confidence bands for percentile residual lifetimes | url = https://linkinghub.elsevier.com/retrieve/pii/037837589290159P| journal = Journal of Statistical Planning and Inference | volume = 30 | issue = | pages = 327–337 }}</ref><ref>{{cite journal | last1 = Schmittlein | first1 = D. C. | last2 = Morrison | first2 = D. G. | year = 1981 | title = The median residual lifetime: A characterization theorem and an application | url = https://en.wikipedia.org/wiki/Digital_object_identifier| journal = Operations Research | volume = 29 | issue = 2| pages = 392–399 }}</ref><ref>{{cite journal | last1 = Morrison | first1 = D. G. | last2 = Schmittlein | first2 = D. C. | year = 1980 | title = Jobs, strikes, and wars: Probability models for duration | url = https://linkinghub.elsevier.com/retrieve/pii/0030507380900653| journal = Organizational Behavior and Human Performance | volume = 25 | issue = | pages = 224–251 }}</ref><ref>{{cite journal | last1 = Gerchak | first1 = Y | year = 1984 | title = Decreasing failure rates and related issues in the social sciences | url = https://pubsonline.informs.org/doi/abs/10.1287/opre.32.3.537| journal = Operations Research | volume = 32 | issue = 3| pages = 537–546 }}</ref> ,它提供了许多众所周知的概率分布的尾部行为的完整表征,包括幂律分布与其他类型的重尾,甚至非重尾分布的分布。这种方法绘制的图形没有上面提到的平均剩余寿命图、双对数图和帕累托 Q-Q图的缺点,它们对异常值很敏感,能够直观地检验具有小<math>\alpha</math>值的幂律,并且不适用于分析大量数据。此外,其他分布类型的尾部也可以用这个方法观察检验。
  
 
===绘制幂律分布(Plotting power-law distributions)===   
 
===绘制幂律分布(Plotting power-law distributions)===   
  
 一般来说,幂律分布是在双对数坐标轴上绘制的,强调右尾部分。最简便直观的方法是通过[https://en.wikipedia.org/wiki/Cumulative_distribution_function (互补)累积分布函数(cumulative distribution function, 缩写为 cdf)]说明:
+
 一般来说,幂律分布是在双对数坐标轴上绘制的,强调右尾部分。最简便直观的方法是通过[https://en.wikipedia.org/wiki/Cumulative_distribution_function (互补)累积分布函数(cumulative distribution function, 缩写为 cdf)]说明:<math>P({x})=\Pr(x>X)</math>
[[File:1f6eee35035f3ac11c8a8e26339b6a0ff11d5f8cb.svg|150px|frameless] | 居中]], 
+
 
[[File:2b8d0032c3570bac175ddeec28dc8eaf14ff5da12.svg|500px|frameless | 居中]]
+
<math>
[[File:积累分布函数cdf.jpg|300px|frameless|右|积累分布函数示例]]
+
P(x)=\Pr(x>X)=C\int_x^{+\infty}p(X)dX=\frac{\alpha-1}{x_{min}^{-\alpha+1}}\int_{x}^{\infty}X^{-\alpha}dX=\left(\frac{x}{x_{min}}\right)^{-\alpha+1}
 +
</math>
 +
 
  
 
 注意,cdf也是幂律函数,只是它的标度指数较小。从数据处理角度,cdf的等价形式是rank-frequency 分布,即先按升序排列<math>n</math>的观察值,再将它们与矢量<math>\left[1,\frac{n-1}{n},\frac{n-2}{n},\dots,\frac{1}{n}\right]</math>对应.     
 
 注意,cdf也是幂律函数,只是它的标度指数较小。从数据处理角度,cdf的等价形式是rank-frequency 分布,即先按升序排列<math>n</math>的观察值,再将它们与矢量<math>\left[1,\frac{n-1}{n},\frac{n-2}{n},\dots,\frac{1}{n}\right]</math>对应.     
  
 尽管便于记录数据,抑或是便于拟合平滑概率密度(质量)函数,但这些方法在数据表示中引入了隐式偏差,因此应该避免。另一方面,所述的cdf法对处理这些隐式偏差更稳健(但并非没有偏误)并且保留了在双对数图形上的线性特征。虽然在同时用线性最小二乘法拟合幂律时,使用cdf绘制优于pdf(概率密度函数),但其不可避免地在数学上有不准确性。因此,在估计幂律分布的指数时,建议使用最大似然估计。
+
 尽管便于记录数据,抑或是便于拟合平滑概率密度(质量)函数,但这些方法在数据表示中引入了隐式偏差,因此应该避免<ref>{{cite journal|url=https://link.springer.com/article/10.1140/epjb/e2007-00219-y|title=Parameter estimation for power-law distributions by maximum likelihood methods|journal=The European Physical Journal|volume=58|issue=2|pages=167–173|author=Bauke, H.}}</ref><ref>{{cite journal|url=https://epubs.siam.org/[https://en.wikipedia.org/wiki/Digital_object_identifier doi]/pdf/10.1137/070710111|title=Power-Law Distributions in Empirical Data|journal=SIAM Review|volume=51|issue=4|pages=661–703|author=Clauset, A., Shalizi, C. R., Newman, M. E. J.}}</ref> 。另一方面,所述的cdf法对处理这些隐式偏差更稳健(但并非没有偏误)并且保留了在双对数图形上的线性特征。虽然在同时用线性最小二乘法拟合幂律时,使用cdf绘制优于pdf(概率密度函数),但其不可避免地在数学上有不准确性。因此,在估计幂律分布的指数时,建议使用最大似然估计。
  
 
===从经验数据估计指数===   
 
===从经验数据估计指数===   
第205行: 第207行:
 
: <math>p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha}</math>
 
: <math>p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha}</math>
  
 要求<math>x\geq x_\min</math>, 其中系数 [[File:Frag.svg|70px|frameless]]  是标准化常量.  给定<math>x_\min</math>, 则对数似然函数变为:
+
 要求<math>x\geq x_\min</math>, 其中系数<math>Z=\frac{\alpha-1}{x_\min}</math>  是标准化常量.  给定<math>x_\min</math>, 则对数似然函数变为:
 
:<math>\mathcal{L}(\alpha)=\log  \prod _{i=1}^n \frac{\alpha-1}{x_\min} \left(\frac{x_i}{x_\min}\right)^{-\alpha}</math>  
 
:<math>\mathcal{L}(\alpha)=\log  \prod _{i=1}^n \frac{\alpha-1}{x_\min} \left(\frac{x_i}{x_\min}\right)^{-\alpha}</math>  
 
 这种可能性的最大值是通过对参数<math>\alpha</math>进行微分来找到的 , 从而使微分等于零,再重新排列,就得到了估计量方程:
 
 这种可能性的最大值是通过对参数<math>\alpha</math>进行微分来找到的 , 从而使微分等于零,再重新排列,就得到了估计量方程:
 
:<math>\hat{\alpha} = 1 + n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_\min} \right]^{-1}</math>
 
:<math>\hat{\alpha} = 1 + n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_\min} \right]^{-1}</math>
  
 其中 对 <math>n</math> 个数据,<math>\{x_i\}</math> 满足<math>x_{i}\geq x_\min</math>.This estimator exhibits a small finite sample-size bias of order <math>O(n^{-1})</math>, which is small when ''n''&nbsp;>&nbsp;100. 此外, 这个估计的标准误是 <math>\sigma = \frac{\hat{\alpha}-1}{\sqrt{n}} + O(n^{-1})</math>这个估计量相当于从数量金融学和极端价值理论中获得的需要的 Hill 估计量。
+
 其中 对 <math>n</math> 个数据,<math>\{x_i\}</math> 满足<math>x_{i}\geq x_\min</math>.<ref name="Newman"/><ref name="hp">Hall, P. (1982). "On Some Simple Estimates of an Exponent of Regular Variation". [https://en.wikipedia.org/wiki/Journal_of_the_Royal_Statistical_Society,_Series_B Journal of the Royal Statistical Society, Series B]. 44 (1): 37–42. JSTOR [https://www.jstor.org/stable/2984706 2984706]</ref>.这个估计展示了一个小范围样本偏差的秩 <math>O(n^{-1})</math>, ''n''&nbsp;>&nbsp;100 时它会比较小。 此外, 这个估计的标准误是 <math>\sigma = \frac{\hat{\alpha}-1}{\sqrt{n}} + O(n^{-1})</math> 这个估计量相当于从数量金融学和极端价值理论中获得的需要的 Hill 估计量。
 
 对于一组''n''值的整数数据点<math>\{x_i\}</math>,对每一个<math>x_i\geq x_\min</math>,都有最大似然指数是先验方程的解:
 
 对于一组''n''值的整数数据点<math>\{x_i\}</math>,对每一个<math>x_i\geq x_\min</math>,都有最大似然指数是先验方程的解:
  
第220行: 第222行:
  
 
 关于这些方法,以及能够使用它们的条件,可以进一步发现,[http://www.santafe.edu/~aaronc/powerlaws/ 这篇文章]全面而详细地提供了可用的代码(Matlab、Python、R和C++)来评估和测试幂律分布的过程。
 
 关于这些方法,以及能够使用它们的条件,可以进一步发现,[http://www.santafe.edu/~aaronc/powerlaws/ 这篇文章]全面而详细地提供了可用的代码(Matlab、Python、R和C++)来评估和测试幂律分布的过程。
 +
 +
详细代码如下:
 +
 +
<source lang="python">
 +
 +
# coding: utf-8
 +
 +
# # 用numpy生成0,1之间的幂律分布
 +
#
 +
# ### 概率密度函数为
 +
# f(x) = a*x^(a-1)
 +
#
 +
 +
# In[241]:
 +
 +
 +
a = 0.4
 +
# 采样数量
 +
samples = 10000
 +
s = np.random.power(a, samples)
 +
 +
 +
# In[242]:
 +
 +
 +
# 绘图展示结果
 +
import matplotlib.pyplot as plt
 +
count, bins, ignored = plt.hist(s, bins=50)
 +
x = np.linspace(0, 1, 100)
 +
y = a*x**(a-1.)
 +
normed_y = samples*np.diff(bins)[0]*y
 +
plt.plot(x, normed_y)
 +
plt.show()
 +
 +
 +
# # 使用原生方法生成0,1之间的幂律分布
 +
 +
# In[250]:
 +
 +
 +
import math
 +
# 分布函数的反函数
 +
def rev(x,a):
 +
    return math.exp(math.log(x) / a)
 +
 +
 +
# In[251]:
 +
 +
 +
# 生成分布
 +
s1 = []
 +
for i in range(samples):
 +
    s1.append(rev(np.random.uniform(0,1),a))
 +
 +
 +
# In[252]:
 +
 +
 +
# 绘图
 +
count, bins, ignored = plt.hist(s1, bins=50)
 +
x = np.linspace(0, 1, 100)
 +
y = a*x**(a-1.)
 +
normed_y = samples*np.diff(bins)[0]*y
 +
plt.plot(x, normed_y)
 +
plt.show()
 +
 +
 +
# # 线性拟合生成结果
 +
 +
# In[254]:
 +
 +
 +
# 统计不同区间的数据数量
 +
divide_num = 100
 +
ys = np.zeros(divide_num)
 +
xs = np.linspace(0,1,divide_num)
 +
for i in range(len(s)):
 +
    ys[int(s[i] * 100)] += 1
 +
 +
 +
# In[255]:
 +
 +
 +
# 使用sklearn包中的回归工具
 +
from sklearn import linear_model
 +
# 回归
 +
x_log = np.log(xs)
 +
y_log = np.log(ys)
 +
#线性拟合数据准备
 +
X_para=[]
 +
Y_para=[]
 +
for x ,y in zip(x_log[1:],y_log[1:]):
 +
    X_para.append([float(x)])
 +
    Y_para.append(float(y))
 +
# 使用sklearn的线性拟合函数进行拟合
 +
regr = linear_model.LinearRegression()
 +
regr.fit(X_para, Y_para)
 +
 +
 +
# In[256]:
 +
 +
 +
#
 +
plt.title("fit the log data")
 +
plt.scatter(x_log,y_log,color = "black")
 +
plt.plot(X_para, regr.predict(X_para), color='blue',linewidth=3)
 +
plt.show()
 +
 +
 +
# # ks检验
 +
 +
# In[155]:
 +
 +
 +
from scipy.stats import kstest
 +
 +
 +
</source>
  
 
====Kolmogorov–Smirnov估计====   
 
====Kolmogorov–Smirnov估计====   
第227行: 第347行:
 
 且:   
 
 且:   
 
: <math> D_\alpha = \max_x | P_\mathrm{emp}(x) - P_\alpha(x) | </math>   
 
: <math> D_\alpha = \max_x | P_\mathrm{emp}(x) - P_\alpha(x) | </math>   
 其中<math>P_\mathrm{emp}(x)</math> 和<math>P_\alpha(x)</math>分别表示数据的cdfs和指数<math>\alpha</math>的幂律概率分布。由于这种方法不以独立同分布数据为前提,所以它提供了一种替代方法来确定数据集的幂律指数,在这种情况下,时间相关性不能被忽略。
+
 其中<math>P_\mathrm{emp}(x)</math> 和<math>P_\alpha(x)</math>分别表示数据的cdfs和指数<math>\alpha</math>的幂律概率分布。由于这种方法不以独立同分布数据为前提,所以它提供了一种替代方法来确定数据集的幂律指数,在这种情况下,时间相关性不能被忽略。<ref name="wzffd"/>
 
+
  
 
====两点拟合法(Two-point fitting method)====   
 
====两点拟合法(Two-point fitting method)====   
  
 两点拟合法可用于无标度分布情况下幂律指数的估计——它比极大似然估计更收敛。研究断裂孔径的概率分布是这种方法的应用之一。某些情况下概率分布并不使用[https://en.wikipedia.org/wiki/Cumulative_distribution_function 积累分布函数( cumulative distribution function)]表述,而是根据满足X> x条件的X的[https://en.wikipedia.org/wiki/Cumulative_frequency_analysis 积累频率  (cumulative frequency)] ,其中X是每单位(或区域单位、秒等)的要素数目,x是一个可变实数。例如,将N个元件的样品的裂缝孔X的累积分布定义为“每米的裂缝数目大于x的裂缝的数目”。使用累积频率有其优势,例如,它允许人们把从不同标度的不同长度的样本线(例如分别从露头(outcrop)和从显微镜)收集的相同的图表数据放在一起。
+
 两点拟合法可用于无标度分布情况下幂律指数的估计——它比极大似然估计更收敛<ref name="Guerriero">{{Cite journal
 +
| first1 = V.|last1= Guerriero
 +
| year = 2012
 +
| title = Power Law Distribution: Method of Multi-scale Inferential Statistics
 +
| journal = Journal of Modern Mathematics Frontier (JMMF)  | url = http://www.seipub.org/sjmmf/paperInfo.aspx?ID=5093
 +
| volume = 1
 +
| pages = 21–28}}</ref>  。研究断裂孔径的概率分布是这种方法的应用之一。某些情况下概率分布并不使用[https://en.wikipedia.org/wiki/Cumulative_distribution_function 积累分布函数( cumulative distribution function)]表述,而是根据满足X> x条件的X的[https://en.wikipedia.org/wiki/Cumulative_frequency_analysis 积累频率  (cumulative frequency)] ,其中X是每单位(或区域单位、秒等)的要素数目,x是一个可变实数。例如,<ref name="Guerriero"/> 将N个元件的样品的裂缝孔X的累积分布定义为“每米的裂缝数目大于x的裂缝的数目”。使用累积频率有其优势,例如,它允许人们把从不同标度的不同长度的样本线(例如分别从露头(outcrop)和从显微镜)收集的相同的图表数据放在一起。
  
 
====R 函数====   
 
====R 函数====   
  
 
 通过R函数估计指数, 并绘制双对数数据拟合线:   
 
 通过R函数估计指数, 并绘制双对数数据拟合线:   
[[File:R.png|500px|frameless|居中]]
+
 
 +
<source lang="python">
 +
    pwrdist <- function(u,...) {
 +
        # u is vector of event counts, e.g. how many
 +
        # crimes was a given perpetrator charged for by the police
 +
        fx <- table(u)
 +
        i <- as.numeric(names(fx))
 +
        y <- rep(0,max(i))
 +
        y[i] <- fx
 +
        m0 <- glm(y~log(1:max(i)),family=quasipoisson())
 +
        print(summary(m0))
 +
        sub <- 
 +
paste("s=",round(m0$coef[2],2),"lambda=",sum(u),"/",length(u))
 +
        plot(i,fx,log="xy",xlab="x",sub=sub,ylab="counts",...)
 +
        grid()
 +
        lines(1:max(i),(fitted(m0)),type="b")
 +
        return(m0)
 +
    }
 +
</source>
  
 
==验证幂律==   
 
==验证幂律==   
  
 尽管幂律关系因许多理论原因而具有吸引力,但证明数据确实遵循幂律关系需要的不仅仅是简单地将特定模型拟合到数据中。这对于理解产生分布的机制很重要:表面上类似的分布可能由于显着不同的原因而出现,并且不同的模型产生不同的预测,例如外推法。   
+
 尽管幂律关系因许多理论原因而具有吸引力,但证明数据确实遵循幂律关系需要的不仅仅是简单地将特定模型拟合到数据中<ref name="HilbertPowerLaw"/> 。这对于理解产生分布的机制很重要:表面上类似的分布可能由于显着不同的原因而出现,并且不同的模型产生不同的预测,例如外推法。   
  
  
 例如,[https://en.wikipedia.org/wiki/Log-normal_distribution 对数正态分布]常被误认为幂律分布:从对数正态分布绘制的数据集对于大值(对应于对数正态的上尾接近幂律)将近似为线性[ ,但对于较小的值,对数正态将显着下降(向下弯曲),对应于对数正态的较低尾部较小(很少有小值,而不是幂律中的许多小值)。   
+
 例如,[https://en.wikipedia.org/wiki/Log-normal_distribution 对数正态分布]常被误认为幂律分布<ref name="mistake">Mitzenmacher, M. (2004). [http://www.eecs.harvard.edu/~michaelm/postscripts/im2004a.pdf "A Brief History of Generative Models for Power Law and Lognormal Distributions" ](PDF). Internet Mathematics. 1 (2): 226–251. [https://doi.org/10.1080/15427951.2004.10129088 doi:10.1080/15427951.2004.10129088].</ref> :从对数正态分布绘制的数据集对于大值(对应于对数正态的上尾接近幂律)将近似为线性,但对于较小的值,对数正态将显着下降(向下弯曲),对应于对数正态的较低尾部较小(很少有小值,而不是幂律中的许多小值)。   
  
  
第250行: 第393行:
  
  
 一般而言,许多替代函数形式在某种程度上似乎遵循幂律形式。[https://en.wikipedia.org/wiki/Power_law#cite_note-FOOTNOTELaherr%C3%A8reSornette1998-51 Stumpf 提出在双对数域中绘制经验累积分布函数 ] ,并声称候选[https://en.wikipedia.org/wiki/Power_law#cite_note-Stumpf-52 幂律至少应涵盖两个数量级]。此外,研究人员通常不得不面对决定现实概率分布是否遵循幂律的问题。作为解决这个问题的方法 ,迪亚兹 提出了一种基于随机样本的图形方法,允许在不同类型的尾部行为之间进行视觉辨别。该方法使用残余分位数函数的束,也称为百分位剩余寿命函数,其表征许多不同类型的分布尾部,包括重尾和非重尾。然而,Stumpf声称需要[https://en.wikipedia.org/wiki/Power_law#cite_note-Stumpf-52 统计和理论背景],以支持驱动数据生成过程的基础机制中的幂律。   
+
 一般而言,许多替代函数形式在某种程度上似乎遵循幂律形式。<ref name="gn">Laherrère, J.; Sornette, D. (1998). "Stretched exponential distributions in nature and economy: "fat tails" with characteristic scales". [https://en.wikipedia.org/wiki/European_Physical_Journal_B The European Physical Journal B.] 2 (4): 525–539. [https://arxiv.org/abs/cond-mat/9801293 arXiv:cond-mat/9801293 Freely accessible.] [http://adsabs.harvard.edu/abs/1998EPJB....2..525L Bibcode:1998EPJB....2..525L.] [https://doi.org/10.1007/s100510050276 doi:10.1007/s100510050276]</ref> Stumpf<ref name="测试">Stumpf, M.P.H. (2012). "Critical Truths about Power Laws". Science. 335: 665–666. [http://adsabs.harvard.edu/abs/2012Sci...335..665S Bibcode:2012Sci...335..665S. ][https://doi.org/10.1126/science.1216142 doi:10.1126/science.1216142.] </ref> 提出在双对数域中绘制经验累积分布函数 ,并声称候选[https://en.wikipedia.org/wiki/Power_law#cite_note-Stumpf-52 幂律至少应涵盖两个数量级]。此外,研究人员通常不得不面对决定现实概率分布是否遵循幂律的问题。作为解决这个问题的方法 ,Diaz
 +
<ref name="Diaz"/>  提出了一种基于随机样本的图形方法,允许在不同类型的尾部行为之间进行视觉辨别。该方法使用残余分位数函数的束,也称为百分位剩余寿命函数,其表征许多不同类型的分布尾部,包括重尾和非重尾。然而,Stumpf声称需要[https://en.wikipedia.org/wiki/Power_law#cite_note-Stumpf-52 统计和理论背景],以支持驱动数据生成过程的基础机制中的幂律。   
  
  
 
 验证幂律关系的一种方法是对特定的生成机制对数据进行许多正交的预测。简单地将幂律关系与特定类型的数据相匹配并不被认为是一种合理的方法。因此,在现代科学的许多领域中,对幂律的验证仍然是一个非常活跃的研究领域。
 
 验证幂律关系的一种方法是对特定的生成机制对数据进行许多正交的预测。简单地将幂律关系与特定类型的数据相匹配并不被认为是一种合理的方法。因此,在现代科学的许多领域中,对幂律的验证仍然是一个非常活跃的研究领域。
 +
 +
==代码实现==
  
 
==参见==
 
==参见==
第278行: 第424行:
  
 
*[http://www.nslij-genetics.org/wli/zipf/  Zipf's law]
 
*[http://www.nslij-genetics.org/wli/zipf/  Zipf's law]
*[http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html  Zipf, Power-laws, and  帕累托  – a ranking tutorial]
+
*[http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html  Zipf, Power-laws, and  Pareto – a ranking tutorial]
 
*[http://www.physicalgeography.net/fundamentals/10ab.html  Stream Morphometry and Horton's Laws]
 
*[http://www.physicalgeography.net/fundamentals/10ab.html  Stream Morphometry and Horton's Laws]
 
*Clay Shirky on [https://www.youtube.com/watch?v=sPQViNNOAkw Institutions & Collaboration: Power law in relation to the internet-based social networks]
 
*Clay Shirky on [https://www.youtube.com/watch?v=sPQViNNOAkw Institutions & Collaboration: Power law in relation to the internet-based social networks]
第291行: 第437行:
 
*[http://web-graph.org The Erdős Webgraph Server] visualizes the distribution of the degrees of the webgraph on the [http://web-graph.org/index.php/download download page].
 
*[http://web-graph.org The Erdős Webgraph Server] visualizes the distribution of the degrees of the webgraph on the [http://web-graph.org/index.php/download download page].
  
  编辑:靠倒立解气
+
==参考文献==
 +
'''引用文献''' 
 +
<references/>  
 +
 
 +
'''参考书目'''
 +
* Bak, Per (1997) ''How nature works'', Oxford University Press [https://en.wikipedia.org/wiki/International_Standard_Book_Number isbn][https://en.wikipedia.org/wiki/Special:BookSources/0-19-850164-1 0-19-850164-1]
 +
 
 +
*{{Cite journal | last1 = Clauset | first1 = A. | last2 = Shalizi | first2 = C. R. | last3 = Newman | first3 = M. E. J.  | title = Power-Law Distributions in Empirical Data | journal = SIAM Review | volume = 51 | issue = 4 | pages = 661–703 | year = 2009  |  ref = harv  }}[https://arxiv.org/abs/0706.1062 isbn:0706.1062][http://adsabs.harvard.edu/abs/2009SIAMR..51..661C bibcode:2009SIAMR..51..661C][https://epubs.siam.org/doi/10.1137/070710111 doi:10.1137/070710111]
 +
 
 +
*{{Cite journal | last1 = Laherrère | first1 = J. | last2 = Sornette | first2 = D. |title = Stretched exponential distributions in nature and economy: "fat tails" with characteristic scales | journal = The [https://en.wikipedia.org/wiki/European_Physical_Journal_B European Physical Journal B ] | volume = 2 | issue = 4 | pages = 525–539 | year = 1998| ref = harv  }} [https://arxiv.org/abs/cond-mat/9801293 arXiv:cond-mat/9801293][http://adsabs.harvard.edu/abs/1998EPJB....2..525L Bibcode:1998EPJB....2..525L][https://doi.org/10.1007/s100510050276 doi:10.1007/s100510050276]
 +
 
 +
*{{Cite journal | last1 = Mitzenmacher | first1 = M. | title = [http://www.eecs.harvard.edu/~michaelm/postscripts/im2004a.pdf A Brief History of Generative Models for Power Law and Lognormal Distributions] | journal = Internet Mathematics | volume = 1 | issue = 2 | pages = 226–251 | year = 2004 | ref = harv}}[https://doi.org/10.1080/15427951.2004.10129088 doi:10.1080/15427951.2004.10129088]
 +
* Alexander Saichev, Yannick Malevergne and Didier Sornette (2009) ''Theory of  Zipf's law and beyond'', Lecture Notes in Economics and Mathematical Systems, Volume 632, Springer (November 2009) [https://en.wikipedia.org/wiki/Special:BookSources/978-3-642-02945-5 ISBN 978-3-642-02945-5]
 +
 
 +
*{{Cite journal| last = Simon | first = H. A. | title = On a Class of Skew Distribution Functions  | year = 1955 | [https://en.wikipedia.org/wiki/Biometrika Biometrika ]| volume = 42 | pages = 425–440 | issue = 3/4 | [https://en.wikipedia.org/wiki/JSTOR JSTOR ] = 2333389 | ref = harv }}[https://doi.org/10.2307/2333389 doi:10.2307/2333389][https://www.jstor.org/stable/2333389 JSTOR 2333389] 
 +
 
 +
*{{cite book |title=Critical Phenomena in Natural Sciences: Chaos, Fractals, Self-organization and Disorder: Concepts and Tools |last=Sornette |first=Didier |[https://en.wikipedia.org/wiki/Didier_Sornette Didier Sornette] |year=2006 |edition=2nd |publisher=Springer |location=Heidelberg |series=Springer Series in Synergetics  }} [https://en.wikipedia.org/wiki/Special:BookSources/978-3-540-30882-9 ISBN 978-3-540-30882-9.]
 +
* Mark Buchanan (2000) ''Ubiquity'', Weidenfeld & Nicolson[https://en.wikipedia.org/wiki/Special:BookSources/0-297-64376-2 ISBN 0-297-64376-2] 
 +
 
 +
* {{cite journal | last1 = Stumpf | first1 = M.P.H. | last2 = Porter | first2 = M.A. | year = 2012 | title = Critical Truths about Power Laws| journal = Science | volume = 335 | pages = 665–6 |http://science.sciencemag.org/content/335/6069/665 }}[http://adsabs.harvard.edu/abs/2012Sci...335..665S Bibcode:2012Sci...335..665S][https://doi.org/10.1126/science.1216142 doi:10.1126/science.1216142.]
 +
 
 +
==相关wiki==
 +
*[[从幂律分布到异速增长]]
 +
*[[异速生长律]]
 +
*[[数据科学]]
 +
* [https://en.wikipedia.org/wiki/Category:Exponentials 指数]
 +
* [https://en.wikipedia.org/wiki/Category:Theory_of_probability_distributions 概率分布]
 +
* [https://en.wikipedia.org/wiki/Category:Statistical_laws 统计规律]
 +
本词条内容翻译自 wikipedia.org,遵守 CC3.0协议。

2020年4月2日 (四) 03:02的最后版本

该词条由 靠倒立解气 翻译编辑,由高飞审校,张江总审校,翻译自Wikipedia词条Power_law

一个幂律图示例,展示了人气排名的规律。右侧是数量庞大但人气微弱的“长尾”,左侧则是少数“主宰”。 (又称80–20法则)。

统计学中, 幂律是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关:表现为一个量是另一个量的幂次方。例如,正方形面积与边长的关系,如果长度加倍,那么面积扩大四倍。[1]


目录

[编辑] 实例

各种各样的物理、生物和人造现象的分布在大致遵循着幂律,涉及范围极其广泛,包括月球表面月坑的大小,太阳耀斑的强度,[2] 各种物种的觅食模式,[3] 神经元集群活动模式的规模,[4]大多数语言的用词频率,各种姓氏的频率,生物各种演化支(clade)的物种丰富度,[5] 停电的波及范围,每个罪犯的刑事罪名指控,火山喷发,[6]人类对刺激强度的判断[7][8] ,等等[9]

不过很少有经验分布符合完整的幂律分布,更确切地说,他们通常是遵循幂律尾部的规律。在许多复杂介质中,声衰减(Acoustic attenuation )遵循宽频带内的频率幂律;揭示生物变量之间关系的异速标度律(Allometric_scaling)是自然界中已知的最著名的幂律函数之一。

[编辑] 性质

[编辑] 标度不变性(Scale invariance)

幂律的一个属性是它们的标度不变性。给定一个关系f(x) = ax^{-k} ,将参数 x标度一个常量 c 只会导致函数本身的比例标度,公式表达为:f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x),此处,\propto 表示成正比(正比例)。也就是说将参数标度常量c,那么对应原始幂律关系乘以常量{c}^{-k} 。因此, 所有具有特定标度指数的幂律都等效于常量因子(的标度), 因为每个幂律函数都只是其他情况的缩放而已。

如果我们取用两者(f(x)x)的对数,会得到一个线性关系,呈现在双对数图上就是一条直线,这通常被看作幂律的标志。对于实际数据, 这种线性是幂律关系数据的必要条件, 但并不是充分条件。实际上, 有许多方法可以生成模拟此指数行为的有限数量的数据, 但在它们的渐近极限中, 不是真正的幂律 (例如, 如果某些数据的生成过程遵循对数正态分布)。因此, 准确地拟合和验证幂律模型是统计研究的一个活跃领域;详见下文。

[编辑] 缺失完备定义的均值(Lack of well-defined average value)

仅当 k > 2 x^{-k}x \in [1,\infty)具有完备定义的均值 ; 当k >3 时,x^{-k} 具有有限的方差;

自然界中, 大多数幂率分布的指数使得其具有完备定义的均值(K>2嘛),但是方差不是有限的,这意味着它们有可能成为“黑天鹅”行为[10]。下面这个思维实验[11]呈现了这个想法: 假设你和你的朋友一起在一个房间里估算平均月收入,然后世界上最富有的人进入房间,他每月收入约10亿美元,那么房间里的平均收入会怎么样?

我们又将收入分布服从幂律现象称为帕累托分布(例如,美国人的资产净值服从指数为2的幂律分布)。一方面,这使得应用基于方差和标准差的传统统计(例如回归分析)失效。另一方面,这或许可通过采取有效的干预手段解决一些问题[11],例如,可以应用到管理汽车尾气排放,这个问题服从幂律分布(极少数汽车导致大多数污染),那么理论上从道路上消除那些极少数汽车就足以减少总排放量。[12]


然而,幂律分布的中位数确实存在: 对幂律x^{-k} ,与指数k > 1,它取 21/(k – 1)xmin,其中xmin时幂律所适用的最小值。[13]

[编辑] 普适性(Universality)

幂律与特定标度指数的等价性在产生幂律关系的动力学过程中有更深层次的渊源。 例如, 在物理学中, 热力系统中的相变与某些量呈现幂律分布有关, 它们的指数被称为系统的临界指数( critical exponents)。具有相同的临界指数的不同系统——即它们在接近临界状态(criticality)时显示相同的标度行为——可以通过重整化理论来证明,他们的基本动力学相同。例如, 水和 CO2 在沸点上的行为在相同的普适类中, 因为它们具有相同的临界指数。 事实上, 几乎所有的物质相变都是由一小套普适类描述的。对于各种自组织的临界系统 (self-organized critical), 人们也进行了类似的观察, 虽然不是很全面, 但在这些系统中,系统的临界点是吸引子。在形式上, 这种动力学的共享性被称为普适性(universality), 而我们通常认为具有精确相同的临界指数的系统属于同一种普适类(universality 5class)

[编辑] 幂律函数(Power-law functions)

科学家对幂率关系感兴趣,部分是因为某些简单机制生成幂率关系所展示出的简洁性。[14]一些数据幂律关系的演示可以指向特定的机制,这些机制不仅是自然现象的基础,还可以表明与其他看似不相关的系统之间的深层联系; 参见上文的普适性 。物理世界中幂律关系的无处不在, 部分是由于维度的限制[15];而在复杂系统中, 幂律通常被认为是层级或特定随机过程 的特征。几个显著例子是帕累托的收入分配定律, 分形的结构自相似性, 以及生物系统中的标度定律。研究幂律关系的起源, 并致力于现实世界中对它的观察和验证, 是物理学计算机科学语言学地球物理神经科学社会学经济学等许多领域研究的一个热门话题。

不过,最近对幂律的兴趣主要来自于对概率分布的研究:似乎有大量的分布遵循幂律的形式,至少它们右尾是符合的。这些大型事件的行为将这些数量与大偏差理论(theory of large deviations)的研究联系起来(也称为极值理论(extreme value theory)),它考虑了诸如股市崩盘大型自然灾害等极其罕见的事件的发生频率。在统计分布的研究中更倾向于称之为“幂律”。

在实际情况中,近似为幂律分布的情况o(x^k)通常包括一个偏差项,它可以表示观察到的值\varepsilon的不确定性(可能是测量或抽样误差),或者提供一种简单的方法使观察偏离幂律函数(可能是因为随机):y = ax^k + \varepsilon.\!

从数学角度来说,一个严格的幂律函数不可能是概率分布,但一个被截断的幂律函数的分布是可能的:p(x) = C x^{-\alpha} ,对于x > x_\text{min} ,指数\alpha (希腊字母 alpha,注意不要与之前使用的标度系数a混淆)大于1(否则尾部具有无限区域), ,最小值x > x_\text{min}是必须存在的。否则,当x接近0时, 分布具有无限面积, 常量因子C是一个标度因子, 以确保总面积为 1, 这是概率分布的基本要求。更常见的是使用渐近幂律——只在极限情况下成立。指数通常在 2 < \alpha < 3之间,不过这并不绝对[9]。详细信息请参阅下面的幂律概率分布(power-law probability distributions )


[编辑] 示例

从物理学(例如沙堆雪崩),生物学(例如物种灭绝和体重)以及社会科学(例如城市规模和收入[16])中,已经确定了超过一百种幂律分布。其中包括:

[编辑] 其他形式(Variants)

[编辑] 分段幂律(Broken power law)

初始质量函数的一些模型遵循分段幂律; Kroupa(2001)红色。

分段幂律是一个分段函数,由两个或多个的幂律函数组成,再加上一个阈值。例如,有两个幂律[26]

Broken.png

[编辑] 具有指数截止的幂律分布(Power law with exponential cutoff)

具有指数截止的幂律就是幂律乘以一个指数函数[27]

f(x) \propto x^{\alpha}e^{\beta x}.

[编辑] 曲线幂律(Curved power law)

[28]


f(x)\propto  {x^{\alpha+\beta x}}

[编辑] 幂律概率分布 Power-law probability distributions

广义上,幂律概率分布是一个密度函数(或离散情况下的概率质量函数)具有以下形式的分布: 对于较大的x[29]

P(X>x) \sim L(x) x^{-(\alpha+1)}

其中\alpha > 0L(x)是一个慢变函数(Slowly varying function),对于任何正因子r ,它都满足\lim_{x\rightarrow\infty} L(r\,x) / L(x) = 1L(x)的这个属性来自于p(x) 渐进的标度不变性。因此,L(x)仅控制左尾的形状和有限范围。如果L(x)是常量因子函数,并且我们有一个幂律适用于所有的 x值,在许多情况下,可以很容易地依据幂律假设出一个下限。结合这两种情况,当 x是一个连续变量,幂律有以下形式:

p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha},

其中,frac{\alpha-1}{x_\min}标准化常量因子

下面我们来讨论这个分布的性质。 首先,它的矩可表示为:

\langle x^{m} \rangle = \int_{x_\min}^\infty x^{m} p(x) \,\mathrm{d}x = \frac{\alpha-1}{\alpha-1-m}x_\min^m

m < \alpha -1,定义是完备的; 当m \geq \alpha - 1,发散: 当\alpha\leq 2,均值与高阶矩都是无穷大; 当2<\alpha<3,均值存在,但方差和高阶矩都是无穷大。 如果从这种分布中抽取有限样本,意味着中心矩估计永远不会收敛——并且随着数据的增多,他们还有增大的趋势。这种幂律概率分布又被称为帕累托型分布,具有帕累托尾部特征的分布,或是具有规则变化的分布。

一种不满足上面的一般形式的修改,即指数截止幂律分布。

p(x) \propto L(x) x^{-\alpha} \mathrm{e}^{-\lambda x}.

在这种分布中,指数衰减项\mathrm{e}^{-\lambda x}最终会在较大的x处超过正常的幂律分布。这种分布无法成比例缩放,因此并不是幂律;不过,它会在截止前的有限区域内近似地缩放。(注意,一般的幂律分布是这种分布的简单形式,即 \lambda=0的指数截止幂律分布。)这种分布是渐近幂律分布的常见替代方法,因为它考虑了有限大小的影响。

Tweedie分布是一族统计模型,其特征是基于可加(additive)与可再生(reproductive)卷积以及标度变换(scale transformation)的闭包(closure)。因此,这些模型都表达了方差和均值之间的幂律关系。这些模型作为数学收敛的焦点,类似于正态分布在中心极限定理中所扮演的角色。这种收敛效应解释了为什么在自然过程中, 方差-平均幂律表现得如此广泛, 就像泰勒在生态学中的定律和在物理学中的涨落标度[30]。还可以证明,使用扩展箱( expanding bins) 方法时,这种方差 - 均值幂律分布(variance-to-mean power law)意味着存在1 / f噪声,而1/ f噪声可能是由于Tweedie收敛效应(Tweedie convergence effect)而产生的[31]


[编辑] 图形检验法(Graphical methods for identification)

在双对数图上呈现直线是必要的,但对于幂律,没有足够的证据证明直线的斜率就对应于幂律指数。

虽然人们已经提出了更成熟更稳健的方法,但通过随机样本检验幂律概率分布的最常用的图形方法还是帕累托双分位图(Pareto quantile-quantile plots )(或帕累托Q-Q图),平均剩余寿命图(mean residual life plot)[32][33]和双对数图(Pareto quantile-quantile plots)(log-log图)。另一种更强大的图形检验法是利用bundles of residual quantile functions 残余分位函数束[34] 。(注意,幂律分布也称为帕累托分布。)这里假设从概率分布中获得随机样本,并且我们想知道分布的尾部是否遵循幂律(换句话说,我们想知道分布是否有“帕累托尾”)。此处随机样本也被称为“数据”。


帕累托Q-Q图是这样绘制的:它将取对数后(样本)数据的分位数与取均值为1的指数分布对应的分位数(或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该怀疑其服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数\alpha(也称为帕累托指数)接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。[34]

另一种检验幂律概率分布的方法是平均剩余寿命图,它包含以下步骤:首先对数据取对数,然后将高于第 i 阶统计量的数据平均值与第 i 阶统计量进行比较绘制,从i = 1, ..., n,其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形; 而这些图形通常被称为 Hill horror plots 。 [35]

双对数图是使用随机样本以图形方式检验尾部分布的另一种方式。使用这个方法必须要谨慎,因为双对数图中呈现直线对幂律概率分布是必要不充分条件,许多非幂律分布在双对数图上也显示为直线[36][37] 。这个方法是将特定数在该分布中的概率估计量的对数 | 对比这个数的对数 | 进行绘图。通常,此估计量是该数据在数据集中出现的次数的比例。如果图中的点在x较大时倾向于“收敛”为直线,则可得出结论,该分布具有“幂律尾”(power-law tail)。目前这些类型的绘图的应用示例已经发表[38]。但这种方法的局限是,需要大量的数据才能使结果可靠。此外,它仅适用于离散(或分组)数据。

不过,目前已经提出了使用随机样本检验幂律概率分布的另一种图形方法。该方法包括绘制对数变换样本的束,是最早提出使用随机样本探索矩的存在和矩生成函数的工具,基于残差分位函数(RQF)(也称为残差百分位函数)[39] [40] [41] [42][43][44][45] ,它提供了许多众所周知的概率分布的尾部行为的完整表征,包括幂律分布与其他类型的重尾,甚至非重尾分布的分布。这种方法绘制的图形没有上面提到的平均剩余寿命图、双对数图和帕累托 Q-Q图的缺点,它们对异常值很敏感,能够直观地检验具有小\alpha值的幂律,并且不适用于分析大量数据。此外,其他分布类型的尾部也可以用这个方法观察检验。

[编辑] 绘制幂律分布(Plotting power-law distributions)

一般来说,幂律分布是在双对数坐标轴上绘制的,强调右尾部分。最简便直观的方法是通过(互补)累积分布函数(cumulative distribution function, 缩写为 cdf)说明:P({x})=\Pr(x>X)


P(x)=\Pr(x>X)=C\int_x^{+\infty}p(X)dX=\frac{\alpha-1}{x_{min}^{-\alpha+1}}\int_{x}^{\infty}X^{-\alpha}dX=\left(\frac{x}{x_{min}}\right)^{-\alpha+1}


注意,cdf也是幂律函数,只是它的标度指数较小。从数据处理角度,cdf的等价形式是rank-frequency 分布,即先按升序排列n的观察值,再将它们与矢量\left[1,\frac{n-1}{n},\frac{n-2}{n},\dots,\frac{1}{n}\right]对应.

尽管便于记录数据,抑或是便于拟合平滑概率密度(质量)函数,但这些方法在数据表示中引入了隐式偏差,因此应该避免[46][47]。另一方面,所述的cdf法对处理这些隐式偏差更稳健(但并非没有偏误)并且保留了在双对数图形上的线性特征。虽然在同时用线性最小二乘法拟合幂律时,使用cdf绘制优于pdf(概率密度函数),但其不可避免地在数学上有不准确性。因此,在估计幂律分布的指数时,建议使用最大似然估计。

[编辑] 从经验数据估计指数

有许多方法可以估算幂律尾部的标度指数值,但并非所有方法都能产生无偏且一致的结果。一些最可靠的技术通常基于最大似然估计。替代方法通常基于双对数概率,双对数累积分布函数或对数分组数据进行线性回归,但是,应该避免这些方法,因为它们都可能导致对标度系数的具有显著偏误的估计。

[编辑] 极大似然估计(Maximum likelihood)

对取自独立同分布的实函数的数据,我们拟合幂律分布的形式:

p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha}

要求x\geq x_\min, 其中系数Z=\frac{\alpha-1}{x_\min} 是标准化常量. 给定x_\min, 则对数似然函数变为:

\mathcal{L}(\alpha)=\log  \prod _{i=1}^n \frac{\alpha-1}{x_\min} \left(\frac{x_i}{x_\min}\right)^{-\alpha}

这种可能性的最大值是通过对参数\alpha进行微分来找到的 , 从而使微分等于零,再重新排列,就得到了估计量方程:

\hat{\alpha} = 1 + n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_\min} \right]^{-1}

其中 对 n 个数据,\{x_i\} 满足x_{i}\geq x_\min.[2][48].这个估计展示了一个小范围样本偏差的秩 O(n^{-1}),当 n > 100时它会比较小。 此外, 这个估计的标准误是 \sigma = \frac{\hat{\alpha}-1}{\sqrt{n}} + O(n^{-1})。这个估计量相当于从数量金融学和极端价值理论中获得的需要的 Hill 估计量。 对于一组n值的整数数据点\{x_i\},对每一个x_i\geq x_\min,都有最大似然指数是先验方程的解:

\frac{\zeta'(\hat\alpha,x_\min)}{\zeta(\hat{\alpha},x_\min)} = -\frac{1}{n} \sum_{i=1}^n \ln \frac{x_i}{x_\min}

其中 \zeta(\alpha,x_{\mathrm{min}})不完整的黎曼ζ函数。这个估计的不确定性和连续方程的公式是一样的。 然而,这两个方程是不等价的,连续的方程形式不应该应用于离散的数据,反之亦然。

另外,这两种估计都需要选择 x_\min.对于非平凡函数 L(x) , 选择太小的x_\min\hat\alpha会产生显著的偏误 , 选择过大又会增加\hat\alpha的不确定性, 并且降低模型的统计功效. 所以通常情况下,x_\min的最佳选择很大程度上取决于左尾的特定形式,以L(x)为代表。

关于这些方法,以及能够使用它们的条件,可以进一步发现,这篇文章全面而详细地提供了可用的代码(Matlab、Python、R和C++)来评估和测试幂律分布的过程。

详细代码如下:

# coding: utf-8
 
# # 用numpy生成0,1之间的幂律分布
# 
# ### 概率密度函数为
# f(x) = a*x^(a-1)
# 
 
# In[241]:
 
 
a = 0.4
# 采样数量
samples = 10000
s = np.random.power(a, samples)
 
 
# In[242]:
 
 
# 绘图展示结果
import matplotlib.pyplot as plt
count, bins, ignored = plt.hist(s, bins=50)
x = np.linspace(0, 1, 100)
y = a*x**(a-1.)
normed_y = samples*np.diff(bins)[0]*y
plt.plot(x, normed_y)
plt.show()
 
 
# # 使用原生方法生成0,1之间的幂律分布
 
# In[250]:
 
 
import math
# 分布函数的反函数
def rev(x,a):
    return math.exp(math.log(x) / a)
 
 
# In[251]:
 
 
# 生成分布
s1 = []
for i in range(samples):
    s1.append(rev(np.random.uniform(0,1),a))
 
 
# In[252]:
 
 
# 绘图
count, bins, ignored = plt.hist(s1, bins=50)
x = np.linspace(0, 1, 100)
y = a*x**(a-1.)
normed_y = samples*np.diff(bins)[0]*y
plt.plot(x, normed_y)
plt.show()
 
 
# # 线性拟合生成结果
 
# In[254]:
 
 
# 统计不同区间的数据数量
divide_num = 100
ys = np.zeros(divide_num)
xs = np.linspace(0,1,divide_num)
for i in range(len(s)):
    ys[int(s[i] * 100)] += 1
 
 
# In[255]:
 
 
# 使用sklearn包中的回归工具
from sklearn import linear_model
# 回归
x_log = np.log(xs)
y_log = np.log(ys)
#线性拟合数据准备
X_para=[]
Y_para=[]
for x ,y in zip(x_log[1:],y_log[1:]):
    X_para.append([float(x)])
    Y_para.append(float(y))
# 使用sklearn的线性拟合函数进行拟合
regr = linear_model.LinearRegression()
regr.fit(X_para, Y_para)
 
 
# In[256]:
 
 
# 
plt.title("fit the log data")
plt.scatter(x_log,y_log,color = "black")
plt.plot(X_para, regr.predict(X_para), color='blue',linewidth=3)
plt.show()
 
 
# # ks检验
 
# In[155]:
 
 
from scipy.stats import kstest

[编辑] Kolmogorov–Smirnov估计

另一种计算幂律指数的方法,它不使用独立同分布数据,使用的是Kolmogorov-Smirnov统计量的最小值, D,在数据的累积分布函数和幂律之间:

\hat{\alpha} = \underset{\alpha}{\operatorname{arg\,min}} \, D_\alpha

且:

 D_\alpha = \max_x | P_\mathrm{emp}(x) - P_\alpha(x) |

其中P_\mathrm{emp}(x)P_\alpha(x)分别表示数据的cdfs和指数\alpha的幂律概率分布。由于这种方法不以独立同分布数据为前提,所以它提供了一种替代方法来确定数据集的幂律指数,在这种情况下,时间相关性不能被忽略。[5]

[编辑] 两点拟合法(Two-point fitting method)

两点拟合法可用于无标度分布情况下幂律指数的估计——它比极大似然估计更收敛[49] 。研究断裂孔径的概率分布是这种方法的应用之一。某些情况下概率分布并不使用积累分布函数( cumulative distribution function)表述,而是根据满足X> x条件的X的积累频率 (cumulative frequency) ,其中X是每单位(或区域单位、秒等)的要素数目,x是一个可变实数。例如,[49]将N个元件的样品的裂缝孔X的累积分布定义为“每米的裂缝数目大于x的裂缝的数目”。使用累积频率有其优势,例如,它允许人们把从不同标度的不同长度的样本线(例如分别从露头(outcrop)和从显微镜)收集的相同的图表数据放在一起。

[编辑] R 函数

通过R函数估计指数, 并绘制双对数数据拟合线:

    pwrdist <- function(u,...) {
        # u is vector of event counts, e.g. how many
        # crimes was a given perpetrator charged for by the police
        fx <- table(u)
        i <- as.numeric(names(fx))
        y <- rep(0,max(i))
        y[i] <- fx
        m0 <- glm(y~log(1:max(i)),family=quasipoisson())
        print(summary(m0))
        sub <-   
paste("s=",round(m0$coef[2],2),"lambda=",sum(u),"/",length(u))
        plot(i,fx,log="xy",xlab="x",sub=sub,ylab="counts",...)
        grid()
        lines(1:max(i),(fitted(m0)),type="b")
        return(m0)
    }

[编辑] 验证幂律

尽管幂律关系因许多理论原因而具有吸引力,但证明数据确实遵循幂律关系需要的不仅仅是简单地将特定模型拟合到数据中[21]。这对于理解产生分布的机制很重要:表面上类似的分布可能由于显着不同的原因而出现,并且不同的模型产生不同的预测,例如外推法。


例如,对数正态分布常被误认为幂律分布[50]:从对数正态分布绘制的数据集对于大值(对应于对数正态的上尾接近幂律)将近似为线性,但对于较小的值,对数正态将显着下降(向下弯曲),对应于对数正态的较低尾部较小(很少有小值,而不是幂律中的许多小值)。


例如,Gibrat关于比例增长过程的定律产生对数正态分布,尽管它们的双对数 图在有限范围内看起来是线性的。对此的解释是,虽然对数正态密度函数的对数在log(x)中是二次的,但在双对数图中产生“弓形”形状,如果二次项相对于线性项较小则结果可以看起来几乎是线性的,并且对数正态行为仅在二次项占优势时才可见,这可能需要更多的数据。因此,向下略微“弯曲”的双对数图可以反映对数正态分布——而不是幂律。


一般而言,许多替代函数形式在某种程度上似乎遵循幂律形式。[51] Stumpf[52]提出在双对数域中绘制经验累积分布函数 ,并声称候选幂律至少应涵盖两个数量级。此外,研究人员通常不得不面对决定现实概率分布是否遵循幂律的问题。作为解决这个问题的方法,Diaz [34] 提出了一种基于随机样本的图形方法,允许在不同类型的尾部行为之间进行视觉辨别。该方法使用残余分位数函数的束,也称为百分位剩余寿命函数,其表征许多不同类型的分布尾部,包括重尾和非重尾。然而,Stumpf声称需要统计和理论背景,以支持驱动数据生成过程的基础机制中的幂律。


验证幂律关系的一种方法是对特定的生成机制对数据进行许多正交的预测。简单地将幂律关系与特定类型的数据相匹配并不被认为是一种合理的方法。因此,在现代科学的许多领域中,对幂律的验证仍然是一个非常活跃的研究领域。

[编辑] 代码实现

[编辑] 参见

[编辑] 相关链接

[编辑] 参考文献

引用文献

  1. Bar-Yam, Yaneer (2015) "Concepts: Power Law".New England Complex Systems Institute. Retrieved 18 August.
  2. 2.0 2.1 Newman, M. E. J. (2005). "Power laws, Pareto distributions and Zipf's law". Contemporary Physics. 46 (5): 323–351. arXiv:cond-mat/0412004 Freely accessible. Bibcode:2005ConPh..46..323N. doi:10.1080/00107510500052444
  3. "Environmental context explains Lévy and Brownian movement patterns of marine predators". Nature 465 (7301): 1066–1069. 2010.
  4. 4.0 4.1 Klaus A, Yu S, Plenz D (2011). "Statistical Analyses Support Power Law Distributions Found in Neuronal Avalanches". PLoS ONE 6 (5): e19779.Bibcode:2010Natur.465.1066H.doi:10.1038/nature09116.PMID 20531470.
  5. 5.0 5.1 Albert, J. S.; Reis, R. E., eds. (2011). Historical Biogeography of Neotropical Freshwater Fishes. Berkeley: University of California Press.Bibcode:2016NatSR...622289C. doi:10.1038/srep22289. ISSN 2045-2322. PMC 4772095 Freely accessible.PMID 26926425.
  6. Cannavò, Flavio; Nunnari, Giuseppe (2016-03-01). "On a Possible Unified Scaling Law for Volcanic Eruption Durations" (in en). Scientific Reports 6. http://www.nature.com/articles/srep22289.
  7. Stevens, S. S. (1957). On the psychophysical law. Psychological Review, 64, 153-181
  8. Staddon, J. E. R. (1978). Theory of behavioral power functions. Psychological Review, 85, 305-320.
  9. 9.0 9.1 Clauset, A.; Shalizi, C. R.; Newman, M. E. J. (2009). "Power-Law Distributions in Empirical Data". SIAM Review. 51 (4): 661–703. arXiv:0706.1062 Freely accessible. Bibcode:2009SIAMR..51..661C. doi:10.1137/070710111
  10. Newman, M. E. J.; Reggiani, Aura; Nijkamp, Peter (2004). "Power laws, Pareto distributions and Zipf's law". Cities 30 (2005): 323–351.
  11. 11.0 11.1 9na CEPAL Charlas Sobre Sistemas Complejos Sociales (CCSSCS): Leyes de potencias
  12. Malcolm Gladwell (2006), Million-Dollar Murray; "Archived copy". Archived from the original on 2015-03-18. Retrieved 2015-06-14.
  13. Newman, Mark EJ. "Power laws, Pareto distributions and Zipf's law." Contemporary physics 46.5 (2005): 323-351.
  14. Sornette, Didier (2006). Critical Phenomena in Natural Sciences: Chaos, Fractals, Self-organization and Disorder: Concepts and Tools. Springer Series in Synergetics (2nd ed.). Heidelberg: Springer. ISBN 978-3-540-30882-9.
  15. Simon, H. A. (1955). "On a Class of Skew Distribution Functions". Biometrika. 42 (3/4): 425–440. doi:10.2307/2333389. JSTOR 2333389.
  16. Andriani, P.; McKelvey, B. (2007). "Beyond Gaussian averages: redirecting international business and management research toward extreme events and power laws". Journal of International Business Studies 38 (7): 1212–1230. https://link.springer.com/10.1057/palgrave.jibs.8400324.
  17. "Structural characteristics and radial properties of tropical cloud clusters". Monthly Weather Review 121: 3234–3260. 1993.
  18. Corral, A, Osso, A, Llebot, JE (2010). "Scaling of tropical cyclone dissipation". Nature Physics. 6: 693–696. arXiv:0910.0054 Freely accessible. Bibcode:2010NatPh...6..693C. doi:10.1038/nphys1725
  19. "Power Law of Dust Devil Diameters on Earth and Mars". Icarus 203: 683–684. 2009.
  20. Reed W.J.; Hughes B.D. From gene families and genera to incomes and internet file sizes: Why power laws are so common in nature. Phys Rev E 2002, 66, 067103; http://www.math.uvic.ca/faculty/reed/PhysRevPowerLawTwoCol.pdf
  21. 21.0 21.1 Hilbert, Martin (2013). "Scale-free power-laws as interaction between progress and diffusion". Complexity. 19: 56–65. Bibcode:2014Cmplx..19d..56H. doi:10.1002/cplx.21485.
  22. Bolmatov, D.; Brazhkin, V. V.; Trachenko, K. (2013). "Thermodynamic behaviour of supercritical matter". Nature Communications 4: 2331. https://www.nature.com/articles/ncomms3331.
  23. Etro, F.; Stepanova, E. (2018). "Power-laws in art". Physica A: Statistical Mechanics and its Applications. https://linkinghub.elsevier.com/retrieve/pii/S0378437118304813.
  24. Lewis Fry Richardson (1950). The Statistics of Deadly Quarrels.
  25. Albert, J. S., H. J. Bart, & R. E. Reis (2011). "Species richness & cladal diversity". In Albert, J. S., & R. E. Reis. Historical Biogeography of Neotropical Freshwater Fishes. Berkeley: University of California Press. pp. 89–104.
  26. Jóhannesson, Einar H. (2006) "Afterglow Light Curves and Broken Power Laws: A Statistical Study".The Astrophysical Journal, Retrieved.640, 07.(L5)
  27. Clauset, Aaron (2009). [https://en.wikipedia.org/wiki/Digital_object_identifier doi/10.1137/070710111 "POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA"]. SIAM Review 51: 661–703. https://epubs.siam.org/doi/10.1137/070710111.
  28. Curved-power law. http://www.mpe.mpg.de/xray/wave/rosat/doc/users-guide/node-files/node188.php. Retrieved 2013-07-07.
  29. N. H. Bingham, C. M. Goldie, and J. L. Teugels, Regular variation. Cambridge University Press, 1989
  30. Kendal, WS; Jørgensen, B (2011). "Taylor's power law and fluctuation scaling explained by a central-limit-like convergence". Phys. Rev. E 83: 066115. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.83.066115.
  31. Kendal, WS; Jørgensen, BR (2011). "Tweedie convergence: a mathematical basis for Taylor's power law, 1/f noise and multifractality". Phys. Rev. E 84: 066120. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.84.066120.
  32. Beirlant, J., Teugels, J. L., Vynckier, P. (1996a) Practical Analysis of Extreme Values, Leuven: Leuven University Press
  33. Coles, S. (2001) An introduction to statistical modeling of extreme values. Springer-Verlag, London.
  34. 34.0 34.1 34.2 Diaz, F. J. (1999). "Identifying Tail Behavior by Means of Residual Quantile Functions". Journal of Computational and Graphical Statistics 8 (3): 493–509.
  35. Resnick, S. I. (1997). "Heavy Tail Modeling and Teletraffic Data". The Annals of Statistics 25: 1805–1869.
  36. So You Think You Have a Power Law — Well Isn't That Special?. http://bactra.org/weblog/491.html. Retrieved 27 March 2018.
  37. Clauset, Aaron; Shalizi, Cosma Rohilla; Newman, M. E. J. (4 November 2009). "Power-law distributions in empirical data". SIAM Review 51 (4): 661–703. https://epubs.siam.org/doi/10.1137/070710111.
  38. Jeong, H; Tombor, B. Albert; Oltvai, Z.N.; Barabasi, A.-L. (2000). "The large-scale organization of metabolic networks". Nature 407 (6804): 651–654. https://www.nature.com/articles/35036627.
  39. Arnold, B. C.; Brockett, P. L. (1983). "When does the βth percentile residual life function determine the distribution?". Operations Research 31 (2): 391–396. https://pubsonline.informs.org/doi/abs/10.1287/opre.31.2.391.
  40. Joe, H.; Proschan, F. (1984). "Percentile residual life functions". Operations Research 32 (3): 668–678. https://pubsonline.informs.org/doi/abs/10.1287/opre.32.3.668.
  41. Joe, H. (1985), "Characterizations of life distributions from percentile residual lifetimes", Ann. Inst. Statist. Math. 37, Part A, 165–172.
  42. Csorgo, S.; Viharos, L. (1992). "Confidence bands for percentile residual lifetimes". Journal of Statistical Planning and Inference 30: 327–337. https://linkinghub.elsevier.com/retrieve/pii/037837589290159P.
  43. Schmittlein, D. C.; Morrison, D. G. (1981). "The median residual lifetime: A characterization theorem and an application". Operations Research 29 (2): 392–399. https://en.wikipedia.org/wiki/Digital_object_identifier.
  44. Morrison, D. G.; Schmittlein, D. C. (1980). "Jobs, strikes, and wars: Probability models for duration". Organizational Behavior and Human Performance 25: 224–251. https://linkinghub.elsevier.com/retrieve/pii/0030507380900653.
  45. Gerchak, Y (1984). "Decreasing failure rates and related issues in the social sciences". Operations Research 32 (3): 537–546. https://pubsonline.informs.org/doi/abs/10.1287/opre.32.3.537.
  46. Bauke, H.. "Parameter estimation for power-law distributions by maximum likelihood methods". The European Physical Journal 58 (2): 167–173. https://link.springer.com/article/10.1140/epjb/e2007-00219-y.
  47. Clauset, A., Shalizi, C. R., Newman, M. E. J.. [https://en.wikipedia.org/wiki/Digital_object_identifier doi/pdf/10.1137/070710111 "Power-Law Distributions in Empirical Data"]. SIAM Review 51 (4): 661–703. https://epubs.siam.org/doi/pdf/10.1137/070710111.
  48. Hall, P. (1982). "On Some Simple Estimates of an Exponent of Regular Variation". Journal of the Royal Statistical Society, Series B. 44 (1): 37–42. JSTOR 2984706
  49. 49.0 49.1 Guerriero, V. (2012). "Power Law Distribution: Method of Multi-scale Inferential Statistics". Journal of Modern Mathematics Frontier (JMMF) 1: 21–28. http://www.seipub.org/sjmmf/paperInfo.aspx?ID=5093.
  50. Mitzenmacher, M. (2004). "A Brief History of Generative Models for Power Law and Lognormal Distributions" (PDF). Internet Mathematics. 1 (2): 226–251. doi:10.1080/15427951.2004.10129088.
  51. Laherrère, J.; Sornette, D. (1998). "Stretched exponential distributions in nature and economy: "fat tails" with characteristic scales". The European Physical Journal B. 2 (4): 525–539. arXiv:cond-mat/9801293 Freely accessible. Bibcode:1998EPJB....2..525L. doi:10.1007/s100510050276
  52. Stumpf, M.P.H. (2012). "Critical Truths about Power Laws". Science. 335: 665–666. Bibcode:2012Sci...335..665S. doi:10.1126/science.1216142.

参考书目

  • Sornette, Didier (2006). Critical Phenomena in Natural Sciences: Chaos, Fractals, Self-organization and Disorder: Concepts and Tools. Springer Series in Synergetics (2nd ed.). Heidelberg: Springer. ISBN 978-3-540-30882-9.
  • Mark Buchanan (2000) Ubiquity, Weidenfeld & NicolsonISBN 0-297-64376-2

[编辑] 相关wiki

本词条内容翻译自 wikipedia.org,遵守 CC3.0协议。

个人工具
名字空间
操作
导航
工具箱