§18.8极值分布

防洪时节人们经常谈论某年的河水的日流量(或者水位)的最大值是多少。从统计学角度看我们可以研究每年的一日流量的最大值(每年的老大)。如果有很多年的资料,可以把它们(每年的老大)本身看作是随机变量。显然这种随机变量也有概率分布规律。可以想象,每年的一日最大流量的概率密度分布函数与一日流量的概率密度分布函数既有联系又有区别。在概率论中这种极大值(或者极小值)的概率分布称为极值分布。

举例来说

y1,1y1,2y1,365 是第1年的每日的流量值,把其中挑出来的极大值记为x1

y2,1y2,2y2,365 是第2年的每日的流量值,把其中挑出来的极大值记为x2

yN,1yN,2yN,365 是第N年的每日的流量值,把其中挑出来的极大值记为xN

 

那么所谓极值分布就是不研究变量y的分布,仅研究从很多个彼此独立的y值中(不同年的日流量)挑出来的各个极大值(x1x2xN值)应当服从的概率密度分布函数f(x)

概率论中给出的一种(还有其他类型的)极值分布的概率密度分布函数由下面的公式描述:

    18.42

现在的任务是从最复杂原理配合对应的约束条件,使利用拉哥朗日方法反求的分布函数具有这种形式。根据过去处理这类问题的经验,取下面的约束条件。

认为变量的平均值是有限值,既有

    18.43

另外再补一个如下形状的约束

           18.44

另外,当然有分布函数的积分必然等于1的约束

      18.45

如果变量有随机性,最复杂原理有效,就可以利用拉哥朗日方法使我们得到与公式18.42对应的分布函数。即这种极大值的概率分布密度函数可以从最复杂原理和三个约束条件推导出来。

约束条件18.45是一切概率密度分布函数都具有的,不必多解释。约束条件(18.8.2)是我们比较熟悉的一种约束,平均值为有限值,接受这个约束不会感到别扭。约束条件公式18.44应当如何理解它?

这个问题捆扰我很长时间,下面是目前的认识。

变量x是从有限个(如365一年有365天)变量(y中挑出来的极大值,如果变量y的原始概率密度分布是指数衰减型的,或者在变量值比较大时其概率密度主要由指数衰减函数支配,那么其概率密度分布函数就具有我们导出过的负指数分布的形状。

在概率论中要讨论概率密度分布函数,它对应于变量出现于某个位置附近的单位区间的概率,但是,概率论也讨论变量小于某个值的概率,这个概率可以用概率密度分布函数从变量的下限积分到现在的值的办法得到。这些请参考概率论的一般书籍这里不再列公式说明了。把这个认识联系到具有负指数衰减的概率密度上,利用指数函数的积分仍然是指数函数的特点,我们可以得到变量小于等于y的概率(不是概率密度)应当等于exp(-y/β) 。这里的β是变量y的概率的衰减率。

如果把以上的认识用到从很多个y中挑出来的极大值x上,会有什么结果呢?显然,对于这些变量y,再比它大的值是不存在的(在该有限个变量值内,如365个)。话反过来说就是概率exp(-x/β)应当等于1 ,即y 小于等于x的概率为1

要知道原始变量y的概率密度分布中的衰减率β是从N年的365N个资料中得到的综合值。而每个极大值x值是从365个变量中挑出的,所以每年得到的极大值就不尽相同。

如何在每年的x值不同,而它们又是当年的“老大”的情况下把前面的认识变成了对x的一种约束公式?这应当联系着关于变量x的极值分布函数f(x) ,既然每个xexp(-x/β)应当等于1,那么对于每年的x应当有约束公式18.44存在。

约束条件18.44与过去给的约束条件的格式小有区别。过去一般的约束公式都是把常数放到公式的左侧,而这个约束中公式左边限定为1,而调节参数出现于公式右边。在数学上它们应当是等价的。

如果用ax和σ分别表示变量x(各年的老大,不是原始的y)的平均值和标准差,那么公式中的两个参数,a、β,与它们的关系由下面公式给出

a=ax-0.45005σ

β=0.7797σ

18.7给出了a=10β=3 情况下的极值分布曲线

 

在文献[15]一文中给出了用这种极值分布曲线拟合新疆喀什日降水量的极值分布的情况。它是为修建机场而提供的一个研究。资料显示,这种分布是符合实际的。在马淑红的很多工作中也证实这种分布可以拟合很多气象资料。

18章最后部分