齐普夫定律

来自集智百科
(重定向自齐夫定律
跳转到: 导航搜索

齐普夫定律 Zipf's law是用数理统计公式表述的经验法则,由哈佛大学语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表,他揭示了在物理和社会科学中,各类型的数据研究所呈现出的图形,近似于齐普夫分布状态 Zipf distribution。而齐普夫分布是一类相关的离散幂律概率分布。


目录

概览

齐普夫定律最初是根据计量语言学来制定的,一般表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。则最频繁出现的单词的频率大约是第二个最频繁单词的两倍,是第三个最频繁单词的三倍,依此类推。这个定律被作为任何与幂定律概率分布有关的事物的参考。 例如:在布朗英文语料库中,单词 the 是最常出现的单词,占所有单词的近7%(在1亿多个样本中出现69,971次)。根据齐普夫定律 Zipf's law,排在第二位的 of 在单词中所占的比例略高于3.5%(共出现36,411次),其次为单词and(出现28,852次),仅前135个词汇就占了Brown语料库的一半。 该定律以美国语言学家齐普夫命名,他致力于推广和阐释该定律,尽管他并没有声称自己是创始人。[2] 法国速记员让-巴蒂斯特 · 埃斯特鲁(1868-1950)可能在齐普夫之前就注意到了这种规律。 1913年,德国物理学家费利克斯 · 奥尔巴赫(Felix Auerbach,1856-1933)也注意到了这一点。

描述

齐普夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,the用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐普夫定律。

而在1913年,费利克斯 · 奥尔巴赫首次注意到城市人口排名中的分布情况 根据实际经验,一组数据可以通过 Kolmogorov-Smirnov 测试来检验齐普夫定律定律是否适用于假设的幂律分布,然后将幂律分布的对数似然比与指数分布或对数正态分布进行比较。对城市进行齐普夫定律检验时,发现指数 s = 1.07的拟合较好,达到预想规模。

遵循该定律的现象

  • 单词的出现频率:不仅适用于语料全体,也适用于单独的一篇文章
  • 网页访问频率
  • 城镇人口与城镇等级的关系
  • 收入前3%的人的收入
  • 地震震级
  • 固体破碎时的碎片大小

理论回顾

齐普夫定律可以通过在对数图上绘制数据(轴分别为等级顺序对数和频率对数)来观察得到。 例如,单词the(依据上方法)将表现在 x log (1) ,y log (69971)中。 也可以根据频率或者倒数频率或者单词间隔来绘制倒数排序。 如果图呈线性,那么数据符合齐普夫定律。

正式表达如下:

n为所考察元素的数量 N be the number of elements
k为他们所代表的等级 k be their rank
s是表示分布的指数值be the value of the exponent characterizing the distribution.

然后齐普夫定律预测,在 n 元素总体中,等级 k,f (k; s,n)元素的标准化频率是: fksN=\frac{1/k^s}{\sum\limits_{n=1}^N (1/n^s)}

如果给定频率的元素个数是幂律分布的随机变量,则齐普夫定律成立。有人说齐普夫定律的这种表述更适合于统计上的检验,并以这种方式在30,000多篇英文文本中进行了分析。 拟合优度测试的结果是,只有大约15% 的文本在统计学上符合齐普夫定律的表达。 而齐普夫定律定义的细微变化可以使这个百分比增加到接近50% 。

在英语单词出现频率的例子中,n 为英语单词的数量,如果我们使用典型的齐普夫定律进行测验,指数 s 为1。 F (k; s,n)将是第 k 个最常见单词出现时间的分数。公式表达如下:fksN=\frac{1}{k^sH_{Ns}}

齐普夫定律最简单的例子如“1 / f 函数” ,给定一组齐普夫分布频率,按照出现频率排序,出现频率的第二位数值是第一位频率数值的一半,第三位频率数值是第一位频率数值的1 / 3,第N位频率数值是第一位频率数值的1 / n。 但数值有可能不精确,因为统计条目必须出现整数次数; 同一个单词不能出现2.5次。 然而在相当广的范围内,很多自然现象都遵循齐普夫定律。

在人类语言中,词频有一个很明显的重尾分布,因此可以用一个 s 接近1的齐普夫分布来合理地建模。只要指数 s 大于1,这样的定律就有可能适用于无穷多个单词,

统计学解释

尽管齐普夫定律适用于所有语言,即使是像世界语(插入相关连接说明)这样的非自然语言,但其原理仍然没有得到很好的理解。 [10]然而,对随机产生的文本进行统计分析可以在某些方面解释这一现象。 Wentian Li表示,在一份文档中,每个字符都是从所有字母(加上一个空格字符)的均匀分布中随机选取的,不同长度的“单词”遵循齐普夫定律的宏观趋势(可能性越大的单词越短,出现概率越大)。 维托尔德 · 贝列维奇在《语言分布的统计规律》中给出了一个数学推导。 他取了一大类表现良好的统计分布(不仅仅是正态分布) ,并用把他们排列名次。 然后他把每个表达式展开成一个泰勒级数。 在每一种情况下,贝列维奇都得到了显著的成果,即级数的一阶截断导出了齐普夫定律。 此外,对泰勒级数的二阶截断导出了曼德布洛特定律。

最小努力原则是另一种来解释齐普夫定律的途径: 齐普夫本人提出,使用特定语言的说话者和接收者都不想仅仅为了理解而付出超额努力,从而导致努力的程度大致平等分配的过程产生了我们所观察到的齐普夫分布。 类似地,偏好依附(直观的看到“富人越来越富”或“成功孕育成功”)产生了 Yule-Simon 分布,这已被证明比齐普夫定律更适合语言中的词频与排名`人口与城市排名研究。 它最初是由 Yule 用来阐明种群与等级的关系,并由 Simon 用来阐释城市的关系。

相关定律

一般地,齐普夫定律指的是“等级数据”的频率分布,其中排名第 n 的条目的相对频率由 Zeta 分布来表达为1 / (nsζ(s)) ,其中参数 s1指的是这个概率分布群的部分。 事实上,由于概率分布有时被称为“定律” ,齐普夫定律有时就是“ Zeta分布”的同义词。 这种分布有时被称为Zipf分布。

对 Zipf 定律的一个推广是 Zipf-Mandelbrot 定律,由本华·曼德博提出,其频率为 :fkNqs=\frac{[\text{constant}]}{(k+q)^s}.\,

Zipfian分布可以通过变量的变化从帕累托分布中得到。[7] 有时也被称为离散帕累托分布[18] ,因为它类似于连续帕累托分布,就像离散型均匀分布类似于连续型均匀分布一样。

本福德定律是 Zipf 定律的一种特殊的有界情形,这两个定律之间的联系,就在于它们都起源于统计物理和临界现象的尺度不变函数关系(尺度不变特征)。[21] 在本福德定律中,概率的比率是不固定的。 满足齐普夫定律的前位数 s = 1同样也满足本福特定律。

编者推荐


本中文词条由厚朴用户参与编译, 刘佩佩 用户审校,欢迎在讨论页面留言

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。

个人工具
名字空间
操作
导航
工具箱