概率分布的三种平均值

horizontal rule

张学文,2008-7-6 公布于个人网站

1.        个体集合

如果由N个个体组成的广义集合[1]中每个个体就标志(变量)xp个可能的取值:x1x2xixp,对每个确定时刻的 个体集合,每个个体只能取一个标志值。于是我们可以统计出取值为xi的个体有ni个,现在把这些统计结果用下表概括。

变量

x1

x2

xi

xp

合计

具有该变量的个体数量

n1

n2

ni

np

N

百分比(概率)

n1/ N

n2/ N

 

ni / N

 

np / N

1

这里显然∑niN。下表是一个例子。

例如有100名学生,其年龄(标志,变量x)有三个可能取值:8910岁。不同年龄x1=8x2=9x3=10的学生数量见下表:

标志x的标志值

x1=8

x2=9

x3=10

 

学生数量

25

35

40

100

个体数量

n1

n2

n3

N

百分比f(概率)

25/100 (25%)

35/100 (35%)

40/100 (40%)

100%

 

       25,30,40%分别是不同年龄学生的百分率。如果任意抽取一个学生,这3个数恰好是该学生对应年龄的出现概率。这3个数体现着概率在年龄上的“分布”。

2.        三种平均值

变量x的常用的平均值有三种,分别是代数平均值xa、几何平均值xg和调和平均值xh。它们的计算公式分别是

       这里的p是变量的可能取的不同值的数量。在上面的学生例子中,p3

3.        个体数量(概率的分布)的三种平均值

前面的表中显示了不同的标志值xi占据多少个个体ni,或者说不同的年龄的学生占的百分比(也可以理解为任意抽取一个学生,其年龄为不同值的出现概率)的分布。因为这个分布在统计物理学和统计学中十分重要,现在我们特意别从个体数量的分布以及百分比(概率)的分布去分析个体数量的平均值和百分比(概率)的平均值

显然,把各个xi代以对应的ni,我们就得到了关于个体数量n的三种平均值:na ,ng ,nh,以及概率f的三种平均值:fa ,fg ,fh,这里的下标依然分别表示代数、几何、调和(平均值)。

      

上面给出的是个体数量的三种平均值。对于几何平均值和调和平均值,显然可以改写为下面的关系

      

       对于概率平均值,由于概率是个体数量ni与个体总数量N的比值,于是有

      

4.        计算的例子

利用最初给的100个学生的例子,我们可以计算学生年龄的三种平均值、它们的学生数量的 平均值和百分比的平均值。

如学生年龄的代数平均值=(8×25+9×35+10×40/100=9.15。即学生平均年龄=9.15岁。用这些公式计算的其它结果见于表中。 

 

代数平均值

几何平均值

调和平均值

学生年龄x

xa=9.15

xg=9.11

xh=9.07

不同年龄学生数量n

na=34.5

ng=33.9

nh=33.3

不同年龄学生百分比f

fa=0.345

fg=0.339

fh=0.333

 数学里证明代数平均值最大,其次是几何平均值,最后的调和平均值最小。我们计算的结果也是这样。

5.        附加说明

我们特别关注个体数量的三种平均值和百分比(概率)的三种平均值。因为它们联系着该个体集合(广义集合)的三种复杂程度(熵、信息熵)。

参考文献:

[1] 张学文,组成论,合肥,中国科学技术大学出版社,2003