§7.2对复杂程度公式的初步说明

7.2.1复杂程度的单位

对代数、几何、调和平均值公式的分析很容易看出平均值的单位应当与标志值的单位相同。根据复杂程度的公式(7.5),标志值x本身并没有出现在公式中,所以复杂程度的单位与标志值的单位没有关系。实际上它与标志值的大小也没有关系,而仅与不同的标志值有多少种(k值)和每种标志值的个体个数n有关。分析复杂程度公式可以看出复杂程度的值与计算时规定的对数以什么为底是有关的。即对数的底不同,求得的复杂程度值也不同。所以对数的底也就决定着复杂程度的单位。

考虑到后面介绍的复杂程度与信息量的对应关系,我们把对数计算中以2为底求得的复杂程度称为比特(Bit)。如果计算中以自然数e(它等于2.71828…)为底,或者以10为底,求得的复杂程度的单位分别是纳特(nat)和哈特利(Hartly)。利用对数换底的公式,不难从一种单位换成另外一种。这些换算与说明列于表(7.2)中。

 

表(7.2)复杂程度与信息量(熵)的单位

中文名

英文名

缩写

对数的底

换算关系

应用领域

比特

Bite

bit

2

1bit=0.125B
1bit =0.301030 Hartly

计算机、通信、信息论

字节

Byte

B

256

1B=8bit

计算机、通信

哈特利

Hartly

Hartly

10

1 Hartly=3.321928bit

一般计算

纳特

Nature

nat

2.71828…

1nat=1.442695bit
1nat=0.434294 Hartly

统计物理、对连续变量的计算、理论计算

7.2.2对复杂程度公式的分析

广义集合(客观事物)都有它的复杂程度值

复杂程度的计算公式说明它仅与广义集合的分布函数值有关,所以每个明确的广义集合(分布函数已知)必然可以计算出它对应的复杂程度。由于广义集合就是具体化了的客观事物,所以每个具体的客观事物都有明确的复杂程度。这说明了复杂程度也如质量、能量那样是客观事物自身具有的客观物理量。当然由于我们关注的客观事物的层次不同侧面不同,我们计算的复杂程度可能仅是该客观事物的总的复杂程度的一部分。

复杂程度没有负值

在前面的讨论中我们已经得出清一色的个体(标志值都相同)其复杂程度为零。它意味着最简单的事物的复杂程度为零。由于没有比清一色(完全相同)更简单的广义集合,所以复杂程度没有负值

从复杂程度公式(7.5)看,由于公式右边各项中有各个标志值占的个体的个数n与广义集合内的个体总数N的比值的对数,而nN,所以这些对数值必然小于等于零。把它们与n相乘后再相加仍然是负值。这个负值与公式前面的负号相乘恰好保证了公式右边不会出现负值。即分析复杂程度公式得出了复杂程度不可能出现负值的结论。

简化的复杂程度公式

如果广义集合内的各个个体的标志值都不同,这表明每种标志值仅有一个个体,所以复杂程度公式中的n=1,而此时不相同的标志值的个数也就等于广义集合的个体总数,即k=N,把这些代入复杂程度公式(7.5),做整理,得到

C=NlogN

它就是各个个体的标志值都不同时复杂程度的计算公式。例如一副扑克牌有52张。每张都不同,所以它的复杂程度为52log52=296.4 bit(对数以2为底)。这个公式比复杂程度的一般公式简单,但是它仅适用于各个个体的标志值都彼此不同的特殊情况。

复杂程度的最大值

前面的例子说明52张彼此不同的扑克牌的复杂程度是296.4 bit 。如果52张牌中有51张彼此不同,而有一张与其他的某一张相同。即有50张彼此不同,每个出现的概率是1/52,而另外彼此相同的两张的出现概率为2/52,那么依照复原杂程度公式,其复杂程度值是

C=50log52+2log(52/2)= 294.4 bit

这个复杂程度比52张牌完全不相同的情况为小。它说明N 个个体的标志值完全不同时的复杂程度也是该广义集合所可能取的复杂程度中的最大值。是的,任何两个或者更多的个体如果彼此相同,系统的复杂程度就有所降低。

应当记住:N 个个体的广义集合的复杂程度的最大值就是NlogN 。这个结论后面有用。

计算例子

一副扑克的复杂程度是296.4 bit,两副扑克呢?两副扑克中每种牌都有两张是相同的。可以用(7.5)公式计算复杂程度。即C=-2log(2/104)- 2log(2/104)- 共有52个相同的项=2(log52+log52+共52项)=2×52log52=592.8 bit,即它是一副扑克牌的复杂程度的2倍。

一枚硬币有状态不同的两面(N=2),如果把每面看成一个个体,一枚硬币就有两个标志值不同的个体。代入公式,其复杂程度=-log2(1/2)-log2 (1/2)=2 bit。

把一个硫酸分子(H2SO4)看成一个广义集合。它由7个原子组成{2H+S+4O}其复杂程度=-2log2(2/7)-log2(1/7)-4log2(4/7)=9.65 bit

某地一年365天(即广义集合的个体总数是N=365)中出现大雨、中雨、小雨、微雨和无雨的天数列于表中,利用公式(7.5)求当地这一年的天气的复杂程度。现把计算过程的数据也列于其中。计算得到的复杂程度就是表的第四行的5个数的合计,即复杂程度=602.6 bit

表(7.3)计算天气的复杂程度

天气(标志值)

大雨

中雨

小雨

微雨

无雨

出现天数(个体数)n

10

20

40

80

215

n/N,该天气占的百分比

10/265

20/365

40/265

80/265

215/365

-nlog(n/N) 的值 bit

51.8

83.7

127.5

175.1

164.1

在这个计算中并没有具体给出大雨和小雨的标准是什么,就计算出了复杂程度的值。它与复杂程度公式中标志值并不出现是对应的,即

复杂程度与标志的具体的值无关

我们注意到复杂程度公式(7.5)中并没有标志值(xi),它仅与标志值xI所对应的个体个数ni有关。所以复杂程度的值与标志值本身没有关系。前面大雨小雨的计算是例子。又如一个骰子,其复杂程度是6log6,把骰子6面的数值分别改为东、西、南、北、中和白板,其复杂程度仍然是6log6。即复杂程度仅与广义集合内有多少种不同的标志值以及每种标志值有多少个体有关。复杂程度度量的是差别程度,而与绝对值的大小无关。

在计算代数平均值时我们要求其标志值必须是数值变量而不能是什么“大雨”、“小雨”、“东”、“西”。而计算复杂程度公式与标志值无关的优点,也促使标志值可以是数还可以是字符串。

所有这些例子表明只要有了一个广义集合的分布函数,不难根据公式计算出该广义集合的复杂程度值。这些计算都涉及求对数的运算,在计算器很普及的今天对数运算是很方便的。可以说求复杂程度与求平均值的计算量几乎是一样的方便。

对于标志值为连续变量的情况,后面要介绍对应的计算公式。

复杂程度与概率的一种平均值对应

离散情况的复杂程度公式(7.5)是

   (7.5)

在第五章我们曾经指出在个体总数为N的广义集合内具有第i种标志值的个体如果有ni个,那么从广义集合内随机地取一个个体,它具有第i种标志值的概率pi就是ni/N 。于是上面的公式可以写为

C=-ni log pi

这样,复杂程度的公式就与概率建立了关系。如果注意到前面对函数的平均值的讨论,把前面的公式可以写为

C=N[-(ni/N)logpi]

而方括号内的值就是不同标志值的概率的对数的负值的代数平均值。于是我们说复杂程度也与广义集合内的不同的标志值的出现概率的一种特殊的平均值成正比例

§7.3 整体的复杂程度≥各部分的和

在宣传材料中我们经常看到“1+1>2”这样的语言。这个在数学上不成立的公式确是企业家和政治家心爱的语言和相信的真理。据陈雨思介绍,系统科学的创始人“贝塔郎菲在临终前的一篇文章中指出:基本的系统问题可以用亚里士多德的古老命题“整体大于它的各部分的和” 来表达。看来总体大于部分和是一些重要人物的重要欲望,目前的弱点显然是还没有真的找出一个物理量符合这个公式(所以数学家还是不承认它)。

我们承认数学上的“1+1=2”,但我们现在真的找到了这样一个物理量它符合总体大于部分和的公式。这个物理量就是复杂程度。

我们要指出两个广义集合做了运算以后,其复杂程度可以大于原广义集合的复杂程度和。其道理浅显又神妙。

例如有两个广义集合AB分别是A={3白球},B={3黑球}。即A有三个白球,B有三个黑球。根据复杂程度公式7.5由于n=N=3,所以它们的复杂程度分别都是零(CA = CB =-3log3/3=0,标志值完全相同的广义集合的复杂程度为零)。现在把这两个广义集合做“加”或者说“和”运算,得到广义集合E,显然E={3白球+3黑球},即它有六个个体,三个白和三个黑。由于这个广义集合内有两种不同的标志值(白、黑),根据复杂程度公式(7.5求得广义集合E的复杂程度CE应当是6Bit ,因为

CE =-3log2(3/6)-3log(3/6)=6log22=6Bit

于是有CA=0,CB=0,CA+B=CE=6Bit

这个例子表明复杂程度为零的两个广义集合做运算,得到的新广义集合的复杂程度可以大于零。所以我们说对于广义集合的运算,其复杂程度是可以有总体大于部分和的情况出现的。在这个极端的例子里竟然是0+0>0, 这简直是无中生有!

好了,企业家和政治家说的“1+1>2”的准确含义现在落实为一个系统的组成的复杂程度可以大于合并前的两个系统的复杂程度的和。一个企业里如果都是清一色的好工人,没有其他类型的人,它的复杂程度就是零。如果都是清一色的会计或者采购或者推销员或者经理,这个企业的复杂程度也是零。但是大家都明白,任何性质单一的人员组成的企业都无法在市场经济条件下生存。仅有比例恰当的工人、会计、采购、推销、经理人员配合在一起,这个企业才有效率。当我们把不同职能的人员组合到一起时,这个企业的组成就复杂了。企业家说的“1+1>2”的效果也就出来了。

有人说发明就是做“加法”。广义集合的加法的魅力可能就在于可以“0+0>0”、就在于使无用的东西组合成更复杂一些的有用的东西。

一般地说,个体数量分别为n1, n2的两个广义集合AB,每个广义集合内的各个个体的标志值彼此不同,于是其复杂程度分别为n1logn1, n2logn2 ,如果两个广义集合可以做和运算而且

  1. n1+ n2个个体的标志值彼此完全不同时,其复杂程度,根据前面的计算公式,应当是 (n1+ n2)log(n1+ n2)。由于n1, n21,它显然比两个广义集合的复杂程度的合计值(n1logn1+n2logn2)要大很多,半付扑克牌与另外半付扑克牌合并就是这个情况。这时总体远大于部分和。

  2. n1= n2时,而且广义集合A中每个的标志值都在B中也存在,那么合并以后的广义集合内的不同的标志值的数量没有增加,还是n1个,但是合并后增加了个体的个数,使它从n1个变成了n1+n2=2n1个,那么合并后的复杂程度显然应当是2n1logn1,既在两个广义集合完全相同的情况下,合并后的广义集合的复杂程度是原来的复杂程度的和,两付扑克牌和到一起就是这个情况。这时其总体等于部分和。

以上两种情况是两个极端,它说明两个个体数量分别为n1, n2的广义集合,在合并以后其复杂程度的值界于2n1logn1 (n1+n2)log(n1+n2)之间(前者对应于两个广义集合个体数量相同而且标志值也对应)。

以上结论也容易推广到更多的广义集合的和运算中。于是我们有得到结论:总体的复杂程度≥部分的复杂程度的合计值(这里的总体一词指多个广义集合的和运算结果)。写成公式就是:

CA+B+…CA+CB+C…     (7.6)

希望政治家、企业家、系统论专家考虑我们的这种理解。这里没有破坏数学计算规律、利用了复杂程度概念的特性,找到了遵守总体部分和的规律的物理量是复杂程度

§7.4连续变量的复杂程度公式