最大可能(概率)公理

物理学第0定律

(组成论第102007年修订版初稿)

张学文

2007-3-17注:本文既是一篇独立的文章,它也是对2003年版的《组成论》一书第10章的修订版。这既把该章的名称从概率公理改为最大可能(概率)公理,也在具体论证和内容上有改进。应当指出,过去冯向军先生在论及我提倡的概率公理时,就用了最大概率原理一词。看来妥当的名称和它的地位都需要在讨论中逐步明确。又,这里关于物理学第0定律的论述取自组成论20章第6节的修订、扩充)

谁是科学领地的新皇帝

17世纪牛顿发现天体和地球上一切物质质点的机械运动都服从他发现的力学原理。这不仅创立了动力学,也为后来的科学发展树立了一个样板。此后人们忙着对各种客观事实做分析,并且努力用牛顿力学对它的机理做出解释。人们把这些努力都称为科学。是的,牛顿力学的成功使它成了科学领域的皇帝。牛顿力学的成功缩小了神学的领地,扩大了科学的领地。

牛顿力学在哲学上的概括就是决定论,它认为事物的未来都是它的现状、条件和力学规律完全决定了的。牛顿发现的力学规律是确定性的客观规律。

牛顿力学在机械运动中的成功鼓励人们把一切自然现象都还原为力学原理。但是恩格斯在19世纪就批判过这种机械论的哲学观点,统计力学、量子力学、概率论、信息论等众多新的科学学科的出现动摇了牛顿力学在科学中的惟我独尊的地位,统计学的无孔不入,概率论的科学地位的提高、用波函数说明原子内的运动、不确定原理等等都在冲击决定论模型。人们从不同的侧面发现了客观事物中的随机性的重要性。于是一种新的哲学观点,一切客观事物具有的随机性的哲学观点时兴起来。

20世纪众多新学科的出现,形成了对决定论的挑战。这些新旗手大多打着随机论的哲学旗号。但是哲学不能代替科学,在众多的新的科学理论中忽视或者否定牛顿力学的唯一地位是一件事情的一个方面,你提出的新理论能够概括多少新事物又是一个方面。老皇帝的地位动摇是一件事,拥护谁做新皇帝又占领很大的理论阵地是另外一件事。

我们应当到哪里去寻找新的原理,而它的地位又有能力取得类似牛顿力学原理在确定性科学中的地位呢?它系出名门,或者出身低微?

这里我们提出一个看法:占有基础地位的新原理可能不是非常深奥但用途有限的“某某论”,而是非常浅显但用途很广的“无名氏”。我们现在就为过去的“无名氏”取个正式的名称,“最大可能(概率)公理”。过去决定论的中心是牛顿的动力学,明天随机论的中心很可能是“最大可能(概率)公理”。

最大可能(概率)公理

公理可能是首先在几何学中引用的词。一本《数学小词典》解释说:“不加证明而承认其正确性,并用以进一步推出新的结果的一些最基本的命题叫做公理”,如“两个相等的量的每边再各加一个相等的量,那么它们的和仍然相等”就是一个公理。利用鲜明不过的公理可以帮助我们去推证很多不那么直观、浅显的规律,如直角三角形的两个直角边的平方和等于斜边的平方——勾股弦定理(商高定理)。欧几里德几何学教育我们不要小看了司空见惯的“无名氏”,很多我们感到吃惊的真理只不过的“无名氏”的正统逻辑后代。

现在我们把“一次随机抽样中尽管多种事件都可能出现,但最容易出现(遇到)的事件(结局)是概率(可能性)最高的事件”称为最大可能公理或者最大概率公理。这个公理也可以反过来表述:“一次(不是多次)随机抽样(一次实践)中概率最高(可能性最大)的事件是最容易出现(遇到)的事件”。

最大可能(概率)公理的表述中用了“一次随机抽样”、“最容易出现”、“概率”和可能性这四个词。

“一次随机抽样”是统计学中用的词,它是让你不带主观偏见地从众多个对象中任意地取出一个(有的场合是把一批抽样统一作为一次实验)作为研究的样品。这里的抽样是仅进行一次,也不允许第一次不满意,再把另外的一次做样品。“最容易出现”这个词含义简单,它带有“实践”的品格。 “概率”这个词含义抽象,带有“理性”的品格。在数学中概率有几种定义,如古典概率、用频率定义的概率、用集合定义的概率以至本书中把百分比定义为概率。而可能性是概率的通俗(定性)说法,它的准确含义就是概率、或然率、可能程度。

概率的定义固然不只一个,但是概率定义中不使用“容易”这个词。所以“概率最高的事件是最容易出现的事件”并不是概率的定义,而是高概率的事件的一个客观性质、一个客观规律性。

由于概率的这个性质、规律太浅显,不仅没有人怀疑它,可也没有特别注意它,以至到今天没有人为它取个名称。我们现在(2003年)就把这个非常浅显的规律(不是定义)抬举一下,称它为“最大可能(概率)公理”。我们尊它为公理的目的也很明确:利用这个非常浅显的公理推导出便于定量应用的原理。

苹果熟了要落地,因为人们对此“熟视”,所以也就“无睹”。可牛顿却从中引出“万有引力”的规律来。现在人们认识到带有随机性的现象十分广泛的存在于自然和社会中,于是我们要寻找与非确定性或者称为存在着随机性的事物中的一般规律。我们发现在人们熟视无睹的事物中广泛体现着最大可能(概率)公理这样一个哲理。

统计学的基础是概率论,概率论用什么支撑了统计学?统计学中很多统计的结论都是基于一个道理:在一次随机抽样中,高概率的事件容易出现。可以说人们已经无意中利用了这个最大可能(概率)公理。

最大可能(概率)公理”是2003年我们提出的概率公理这个名称的修订(冯向军此前曾经以最大概率原理称呼它,我们以后可能还要修订)。

最大可能(概率)公理的定性应用

生活中的事例其实早已在很多场合无形中利用了最大可能(概率)公理。

从一袋瓜子里任意(别挑,或者闭上眼睛)拿了一粒,可它是坏的。这就是一个事件,根据这个偶然事件如何估计这袋瓜子中坏瓜子占多少(百分比)?

随便拿一个瓜子就是个坏的,当然不能认为所以瓜子都是坏的,但说明坏瓜子容易被选中。根据最大可能(概率)公理坏瓜子被选中的概率不是低概率事件而是高概率事件。它说明袋子里的瓜子中“坏瓜子占的比例最高”。

记住这个分析思路,在挑选商品时就不要专挑好的尝,而是任意拿一个,如果它竟然是坏的,你就可以决定不买它了。

根据天气资料和经验,气象预告人员认为明天出现晴天和雨天的概率分别是0.30.7,明天那一种天气最容易出现?显然是雨天最容易出现。于是气象预告员就预告明天下雨。预告员作预告的过程就是努力弄清高概率事件是什么(寻找概率极大值所在的状态空间中的位置!)。由于概率最高的事件最容易出现,以概率最高的事件作为自己的决策(预告)也就最容易“正确”。

篮球运动员选择什么位置投篮最容易成功?由于离篮球框最近,投篮成功的概率(命中率)最高,运动员当然是选择概率(命中率)最高的投篮方式(离篮框最近)去投篮。运动员尽量向篮下钻,就是为了要到那里去投篮。到命中概率最高的地方去投篮,最容易出现投篮命中的情况(事件)。钻到“概率最高”的地方去就是为了使“得2分”的事件“最容易”实现——这体现了最大可能(概率)公理。可以说运动员都非常熟练地利用了最大可能(概率)公理,当然,你也可以说最大可能(概率)公理非常浅显,人们都会使用它甚至使用了它还不知道它的存在!这与人们都知道苹果要落地而不知道万有引力定律的存在是类似的。

大夫看病时根据症状认为患者可能患了ABC几种病。大夫知道出现B 种病的概率最高,大夫按哪种病开药方?他当然以可能性最大(概率最高)的那种病处理。因为患者固然可能得了A病或者C病,但是患者最容易出现的事件是得了B种的病。所以大夫开处方时已经不自觉地利用了最大可能(概率)公理(把“高概率”与“容易出现”划等号)。

出了案件,警察先是怀疑每个人都可能犯罪,但不能随便抓人。要找出犯罪可能性最大(概率最高)的嫌疑犯。最后再决定逮捕他。把犯罪概率最高的人抓起来的,对吗?它最容易“对”(“对”是最容易出现的结局),而把其他的犯罪概率不高的人抓了就不容易对(容易“错”)。一则新闻报道介绍了法院判案时,如果没有完全确定的把握断案,它就取可能性最大(概率最高)结论为判决结果。据说这是法律规定的“高度概然性标准”。看来,警察和法官也都在寻找“高概率”,“最大可能”的情况是什么。

有人在赌赛马,有人在赌足球,赌徒的具体目的就是寻找最大可能赢球的球队,最大可能跑第一的马匹。你玩股票吗?你是否努力寻找一个涨价可能性最大的股票?这些事例说明最大可能(概率)公理早已熟练地应用于各种场合(高等动物也都会定性使用)。

对这些定性应用的例子可以这样概括:存在着N个“选择方案”,人们的理智做法是了解(获得、计算、估计)每个“选择方案”对应的出现概率(对现的可能性),然后以概率最大的哪个选择方案作为自己的决策行动。这时人的理智体现在他无形中利用了最大可能(概率)公理。

最大可能(概率)公理的定量应用——最大似然原理

统计学里经常是根据出现的情况(一批试验观测数据)去推断一个结论(如显像管的平均寿命)。这种推断并没有绝对的把握,人们于是退而求其次:以概率最高的事件作为正选答案。最大可能(概率)公理没有说高概率的事件必然出现,仅是说概率最高的事件是最容易出现的事件,所以不要误以为概率最高的事件就必然出现。它的含义仅是比其他的事件容易出现。它与2+2必然等于4是不同的。

实际上如果概率的最高值是0.6,它仅意味着在1000次实验中大约有600次是正确的。如果概率的最高值是0.99999999或者更高,情况就好了很多,它意味着在10次或者1万次抽样中都难得错一次,这已经与必然出现没有什么差别了。

统计学里有个很高明的最大似然原理(方法)。它的理论根据就是“在一次随机抽样中,认定最容易出现的事件是概率最高的事件”,即最大可能(概率)公理。由于最大似然方法是理解最大可能(概率)公理一个好事例,这里做些介绍。

统计学中有时已经知道某些数据来自某个广义集合(称为母体),而且知道它的分布函数(对应过去的概率分布函数)是什么形状。问题是要从一批随机抽样观测数据中去推测该分布函数中的统计参数(例如平均值)是什么。最大似然方法就有一套处理这类问题的有效方法。

下面问题是个比较具体的例子:已经知道成年人的身高服从正态分布(很高和很矮的学生很少,身高与平均值接近的人最多),又对100人测量了身高。问描述身高的正态分布函数中的两个参数——平均值a和标准差b各是多少?

这里说的正态分布就是统计学里著名的高斯分布。它也是连续变量型的相对分布函数中的一种,其数学公式是

                 10.1)

我们用f(xab)表示这个正态分布函数,x代表身高,ab是目前还不知道的参数值(平均值和标准差)。把公式写成这种格式是突出a,b的值现在还不知道,它也是未知数。而已经知道的是100个人的身高的数据。现在的问题是如何从这100个数据里反求出ab的估计值(称为最大似然估计)。

100个数据是x1x2,…,x100

对于x1其出现的概率为f (x1ab)

对于x2其出现的概率为f (x2ab)

对于x100其出现的概率为f (x100ab)

基于以上观测事实,根据独立事件的乘法定理(每次采样都与其他的采样无关),100个数据恰好是x1x2,…,x100的概率P显然是这100个概率的连乘积。所以有下面的等式

P= f (x1ab)f (x2ab)f (x100ab)

这个等式也可以写为

P=(xiab) i=12,…,100             10.2)

即这个概率P是另外100个概率值的连乘积。∏是连乘积符号,现在是100数连乘。

表面上看概率P现在是100x值的函数。但是100x值已经观测到了。真正不知道的是ab的值。现在要利用对概率的分析去推断ab的值。

如果100个人的身高是另外一组数值,它们对应的出现概率P的值也会是另外一个数值。这100个数据为什么是这100个数值而不是别的?这说明这100个数值最容易出现。

如果把这100次测量统一看成一次抽样作业,根据最大可能(概率)公理显然表明:100个数值恰好是这一些数值(是不是别的)的事件所对应的出现概率应当是最高的概率。

现在我们的思路一转:就是要根据“概率最高”这个结论反求出我们现在还不知道ab的具体数值是什么。——这就是统计学中最大似然原理(方法)的核心。

公式10.2)左边的概率值应当是概率的最大值,而它又是ab的函数,在数学上我们自然认为概率pab的偏微商(数学中的微积分知识)必然分别等于零。显然我们应当利用这个关系反求出ab的值。

注意到

1. 公式10.2)右边是100数的乘积,它处理起来很麻烦;

2. 一个数的对数与原来的数是单调函数关系,所以求100个数的连乘积的最大值与求它们连乘积的对数的最大值是等价的;

3. 把公式10.2)两边取对数后再求最大值在数学上容易计算。

我们对公式10.2)的两边先取对数,再分别对统计参数ab求偏微商,由于概率最大(根据最大可能(概率)公理)时上述偏微商必然分别等于零。利用这两个等式就可以求出未知的参数ab。它们分别是

如果样本的个数是100个,那么上面公式中的n=100。这两个公式与我们从样本求平均值和标准差的公式是一致的,它也说明我们一般把样本的平均值和标准差当作理论公式中的平均值和标准差是符合最大似然原理的,或者说面对这样一批资料,其统计参数ab可能等于各种值,但是它们等于上面公式的计算值的概率是最高的。

至此我们已经理清了用概率最大反求未知数ab的基本思路。它可以方便地用到其他的分布函数中的未知数的求解上去。

最大似然方法在统计学中得到了广泛的应用。其具体步骤可以从对应的统计书中找到。大家明白用最大似然方法求得的结果比较有效的原因是它利用了概率最高这个条件。而选取“概率最高”为条件是因为它符合最大可能(概率)公理。

最大似然原理(方法)富有成效的原因是它巧妙地利用了最大可能(概率)公理。

最大似然原理是早就明确了的原理,而最大可能(概率)公理是现在才提出的原理。没有最大可能(概率)公理以前人们认为最大似然原理的思路很巧妙很合理,现在有了最大可能(概率)公理人们就认为最大似然原理是最大可能(概率)公理的一个重要推论和应用。有了最大可能(概率)公理,我们就向随机性事物的基本规律方面又迈进了一步,就多回答了一个为什么。

最大熵原理

热力学第二定律被科学界认定为自然界的基本原理,它也经常被称为熵原理、最大熵原理等等。但是熵这个概念从开始就披着一件神秘的外纱,让人们比较难理解其含义。会利用它解决具体问题的学者仅属于少数,而多数人对这个概念和这个原理存在着“敬神”的非理智情节。

由玻尔兹曼等人建立的统计力学对熵的统计、概率本质做了重要的说明,让人们感到熵增加与高概率是有联系并且给出了统计说明。这已经为热力学第二定律的神秘性做了破解。但是,从用词到逻辑分析,涉及熵和熵原理的模糊之处依然不少。

《组成论》一书[1]定义了什么是复杂程度,说明所谓的“熵”是热力学领域的一种“复杂程度”。而关于复杂程度,我们可以从最大可能(概率)公理证明复杂程度最大的事件最容易出现。这样熵原理就是最大可能(概率)公理的一个推论。所以熵原理之所以正确,依靠的是一个更根本的真理,即最大可能(概率)公理。这样我们就把最大熵原理与最大可能(概率)公理的逻辑地连接到一起了。

关于这个问题的细致陈述,请参考《组成论》一书,而这里就不再重复了。

6物理学第0定律

依照上面的分析最大可能(概率)公理似乎取代了热力学第二定律,成为一个基础性的规律。于是人们会问:最大可能(概率)公理究竟是数学原理还是物理学原理?

最大可能(概率)公理是说:一次(不是多次)随机抽样(一次实践)中概率最高(可能性最大)的事件是最容易出现(遇到)的事件。笔者的初步看法是:尽管我们为它取了一个数学味道很浓的名字,最大可能(概率)公理,但是它有“实验”的品格。它与物理学的距离比数学更近。这体现在最大可能(概率)公理的表述中含有随机性抽样这些词。而“抽样”一词具有物理学(实验、实践)品格。

确实,人们过去把一个抽样实验看作是没有物理学内容的实验,但是我们也可以把抽样实验看作有物理学要求的。这个要求就是在实验过程中,被实验的物体必须保持原质地,保持原形状不得有变化。如果实验物体(如一枚硬币)在进行抽样实验时从固体变成了气体或者从偏平的硬币变成球体,那么我们关于抽样结局的概率规律也就无从谈起了。

过去我们理解的很多物理学定律都是关于物质的运动或者变化的规律。抽样实验中隐含了物质保持其原有形状、性质的要求。对于这种在不变化的条件下的物体的概率规律,我们也可以看作是关于物质的最初级的规律。我们是否可以称它为物理学第0定律?——物质没有形状和质地变化时的有关规律。

一个物体从30米的空中自由降落到土地上

如果物体是一个质点,我们研究它的速度与距离的关系,这是物理学问题。

如果物体是一个铅球,我们研究它形成的土坑有多大,这也是物理学问题。

如果物体是个玻璃瓶,我们研究它碎成多少块,不同大小的碎块各有多少,这还是物理学问题。

如果物体是一枚硬币,我们研究它那一面向上,这难道不是一个物理问题?

最后一个问题联系着抽样实验,而最大可能(概率)公理是关于抽样实验的规律。说最大可能(概率)公理是物理原理并不为过。

过去,我们引入这个公理时着重强调这个表述的内容,没有强调它应当称为最大可能(概率)公理;现在,请大家考虑是否把它改个名称并且归入物理学?

顺此,我们还可以再深入对比几个名称的妥当性。如物理学里有所谓统计物理学,而统计学被认为是数学的一个分支。这个统计物理学的名称是否科学、妥当?难道物理学中比较多的用了统计学知识就应当冠以统计二字?照此说来,中学生学习的物理学应当成为代数物理学,而大学学习的物理学应当成为微积分物理学!?这个反例说明物理学用了某种数学,没有必要把对应的数学名称加进去。所以统计物理学这个名称有其不妥当的弱点。在这里我们要引出的问题是:统计学所以有资格加到物理学的头上是有另外的原因存在。这个原因现在说来也简单:统计学本来就不是数学的一个分支,它倒是物质没有形状和质地变化时的有关规律。即最大可能(概率)公理连同全部统计学知识都应当归入物理学内(而不是留在数学内),它们着重研究物质没有形状和质地变化时的有关规律。最大可能(概率)公理就是物质没有形状和质地变化时的重要规律(物理学第0定律)。 

7       

20世纪的新兴科学冲击了300年来以牛顿力学为样板的决定论的地位,而新兴的众多科学大多强调随机论的重要性。但是在随机论中那个科学原理具有牛顿力学原有的地位?这是一个目前还不明朗的问题。

笔者认为随机论中具有基础地位的原理不是科学家在极特殊环境、极先进的条件(仪器)下找到的原理,而是大家熟视无睹的,与随机事物有关的一种现象(规律)。它过去没有名称,我们把它称为最大可能(概率)公理

“一次随机抽样中尽管多种事件都可能出现,但最容易出现(遇到)的事件(结局)是概率最高的事件”称为最大可能(概率)公理。这个公理也可以反过来表述:“一次随机抽样中概率最高的事件是最容易出现(遇到)的事件”。

最大可能(概率)公理是废话,还是原理?

“大苹果都个儿大”,当然是一句废话(A=A也是一句废话,但是它不是错话,而且在逻辑学中它被称为同一律,是逻辑学的基本定律!)。“大苹果都是熟的”可就不是一句废话。“大”与“熟”不是一个含义,所以“大苹果都是熟的”包含了一些知识(规律)。

只要大家承认“容易出现”与“概率高”不是一个含义,最大可能(概率)公理就有存身之地了。是的,“概率”这个词有不止一个解释,把“容易出现”与“概率高”的含义区分开也就理所当然了。

本文用定性和定量的例子说明这个公理的普遍适用性和与熵原理等的关系,还提出它应当是物理学的原理的见解,供大家考虑。

确认了最大可能(概率)公理的存在不仅是修订我们已经有的知识结构,并且是把这个公理用到更多的场合去。我们已经看到它的一些概括力,但是它显示力量的领域远不只这些,而余下的事,就依靠大家开发了。 

参考文献

[1]张学文,组成论,合肥,中国科学技术大学出版社,2003