第十八章概率分布的统一(2

   2002年2月公布于 http://entropy.com.cn 

张学文 zhangxw@mail.xj.cninfo.net 

 2002.11.25修订

§18.3Gamma分布

18.2.1从最复杂原理得Gamma分布公式

连续型的随机变量x(或者说一个广义集合的标志变量)如果它的概率密度分布函数f(x)符合

    ,x>0      (18.18)

关系时,这个概率密度函数称为伽码(Γ,Gamma)分布。 它也是著名的皮尔逊概率分布函数簇中的重要一员,称为皮尔逊Ⅲ型分布。它的曲线有一个峰,但左右不对称。在自然界中服从这种分布的现象不少。

公式中有两个参数n,β。由于这种分布对自变量要求有一个大于等于零下限,拟合资料时又比正态分布的弹性大,在我国的水文界广泛用皮尔逊Ⅲ型分布来模拟水文数据系列。中国新规范规定[11]:“频率曲线型一般应采用P-Ⅲ型分布,经分析论证后可采用其他线形

这些做法大都出于一种经验认识:它符合实际。对于它为什么适合一些资料没有多追问。我们现在利用最复杂原理寻找形成这种分布的物理原因。

如果分析这个公式的外型,不难发现它既具有负指数分布中存在的指数部分,也存在幂分布公式中的幂函数特点。我们记得指数分布对应着标志变量的代数平均值不变的约束,而幂函数对应着变量的几何平均值不变的约束。于是容易猜想到Gamma分布的约束条件就是变量的代数平均值和几何平均值都是固定值。

确实,一个必然大于零的随机变量(如河水的流量)其代数平均值和几何平均值分别为固定值(不同的),并且它出现什么值的不确定性(结局的复杂性)最大,不难利用与前面类似的方法推导出它的概率分布函数必然是Gamma分布。

f(x)表示随机变量x的概率密度分布函数,

              (18.19)

u代表变量的代数平均值,既有

     (18.20)

根据前面对几何平均值的讨论,我们也可以把几何平均值不变写为变量的对数的代数平均值不变,这个约束可以写为v不变,这里

        (18.21)

而变量的信息熵(对应于复杂程度)为

   (18.22)

在(18.19)、(19.20)、(18.21)的约束下,让熵最大反求分布函数时用拉哥朗日方法构造的函数F

这里的C1 C2 C3是待定的常数。熵H最大(最复杂原理),也就是F最大,将上式对f求偏微商,F最大就是它的偏微商为0,于是得到

f(x)=exp(C1-1+ C2 x+ C3lnx)

经过整理,可以就得到

    (18.23)

这个结果就是求得的分布函数。由于各个Ci都是一些常数,所以这个公式说明分布函数是幂函数与指数函数的乘积。它的外型与本节最初给出的Gamma分布公式已经相同了。

另外,注意到指数函数与幂函数的乘积的定积分可以从积分表上查得下面公式:

利用这个关系可以消去常数C1 并且使公式中出现了阶乘。利用公式(18.20)、(18.21)可以从已经知道的uv换算出公式(18.18)中的另外两个常数n,β。而且我们看到n=C3,β=- C2 。利用uv换算出n,β的过程不能用简单的公式表示。这里不讨论细了(参考文献[12])。图18.4Gamma 分布的曲线图

18.4 Gamma分布的曲线图

从上面的推导中看出:

在一个广义集合(客观事物、系统、抽样实验)中如果变量(标志值)的代数平均值和几何平均值是不变的,而其复杂程度(熵)最大,那么各个个体为各种标志值(变量的各种取值)的概率(占的百分比)必然是Gamma分布(皮尔逊型分布)。

这样我们就利用最复杂原理(最大熵原理)说明了Gamma分布的物理成因。

18.3.2Gamma分布的补充说明


1.如果变量的下限不是0,而是另外一个有限值a,那么它仅影响分布函数在x坐标中的位置而不影响函数的形状。这时公式(18.18)变成了
             
x>a   (18.24)

2.Gamma
分布兼有指数分布和幂分布的特点。从Gamma分布公式看,当β为零时,它就变成了幂分布。当n=1时,它变成了指数分布。而它的分布函数是前两种分布的乘积(系数做了调整)。幂分布与指数分布在变量值很小时其概率值很大,但是它们组成的Gamma的最大值却不在变量最小时而是有一个峰值比较居中。

3.
利用概率知识,我们还可以就一个服从指数分布的变量的n个合计值的概率分布问题做研究,而且可以得到这个合计值(新变量)应当服从Gamma分布。其中的n也就是Gamma分布中的n。这也是分析Gamma分布的物理原因的另外一种思考途径(它代替了几何平均值固定的约束条件,证明这个结论要做一种卷积积分,这里不谈了)。
4.
一个地方的每次降雨的雨量是很不规则的变量,于是雨量分布对应的复杂程度应当最大化。我们可以想到的约束就是它的代数平均值应当固定(对应与当地气候在一定时段内不变化)。利用这两点我们前面就推出其雨量的概率分布是指数分布(见斩乱麻问题)。根据上一段的介绍,两场雨的合计值的概率就应当是n=2Gamma分布。三场雨的合计值是n=3Gamma分布。如果一个月大约有4场雨,那么其月雨量的概率分布就应当与n=4Gamma分布很接近。而气象上的统计也确实证明月降水次数比较多的地方,其月雨量服从Gamma分布。有了我们这些认识对气象要素的概率分布的理解就深了一个层次。
5.
水文上也对河水流量等变量广泛使用皮尔逊型分布,即Gamma分布去拟合。为什么这种分布符合水文实际?在气候不变时(一个长时期),流量的代数平均值不变是个合理的假设。变量的几何平均值不变对应的是变量的相对变化的平均值固定,这符合水文现象的特点。于是对于水文现象,它满足代数平均值和几何平均值分别固定的假设是合理的。再加上复杂程度最大化(用最复杂原理),我们自然得到了一个服从Gamma分布的结论。这个分析也表明:除了两种平均值不变和最复杂原理以外,再没有其他的力量约束着这些水文变量。或者说我们找到的理由不仅是必要的也已经是充分的。
6.
简而言之,一个广义集合(如一批水文观测数据),如其代数平均值和几何平均值应当是受约束的(有固定值的),当承认其复杂程度应当最大,其分布函数就应当是服从Gamma分布。当我们证实一批资料符合Gamma分布时我们高兴,当我们用最复杂原理配合代数平均值几何平均值合理地说明了它也就是应当服从Gamma分布时,我们的工作就从现象(经验方程。唯象方程)向理论深入一步。
7.
现在的统计书介绍Gamma分布的也不少,但是利用熵原理(最复杂原理)说明它的物理背景的几乎没有。笔者认为应当把这一层认识编入统计教科书。

 

§18.4Bata分布