今天你想投票了吗?

2008 年 11 月 4 日,美国总统大选让奥巴马成为美国历史上第一个黑人总统,也让这个日子永载史册。美国媒体在之前的宣传中纷纷称之为「你一生中最重要的一次投票」,——事实上,每次投票之前都会有类似的宣传出现,但是这一次也许是最贴切的。

既然有投票,就有事前的机关算尽,事后的败寇成王。美国人的情绪在那个特殊的夜晚激烈地动荡着,藕粉们(奥巴马的支持者)纷纷称之为美国历史的新纪元,麦片们(麦凯恩的支持者)愤愤不平地说奥巴马只不过靠巧言令色才窃得大位,稀饭们(希拉里的支持者)则黯然神伤,来来去去想的都是「要是希拉里当时赢了民主党初选……」。而在大洋此岸的中国,借助互联网的帮助,大家也纷纷密切注视着这次大选中的种种风吹草动。在论坛里,在博客上,大家理直气壮地谈论着发生在另一个国家里的选举,在指点江山的快意之外,也心照不宣的把它视为某种意义上的借镜。由于众所周知的原因,我们对于投票这件事情的了解几乎总是匮乏的,隔岸观火,也不失为一个学习投票常识的办法。

「且慢,」也许你会有异议,「如果说选举过程中的政治操作需要学习还可以接受的话,投票本身还有什么知识可言?一人一票的统计就是了啊。」

当然不仅如此。正如我们所知,美国的选举制度并非是简单的一人一票。事实上, 「一人一票」并不一定是个自然的办法——甚至也不一定是个好办法。

让我们从下面这个简单的例子开始。假设有一组人要从 A B C 三个候选人中选出一个来担任某项职务。大家对这三个人的内心偏好列如下表:

有 2 个人认为 A 优于 B 优于 C
有 3 个人认为 A 优于 C 优于 B
有 2 个人认为 C 优于 B 优于 A
有 4 个人认为 B 优于 C 优于 A

现在大家投票。按照每人投一票的原则,每个人给他心中最胜任的人选投上一票,结果是 A 得 5 票,B 得 4 票,C 得 2 票,排名是 A 高于 B 高于 C,最后 A 当选。看起来没什么问题。

如果换一个规则,假定大家认为每人一票不足以反映民意,决定仍然按照上面的偏好顺序投票,但是每个人分别投两票给他认为最胜任和次胜任的人选,那么结果会有多大差别?计算一下就会发现,最后 A 得 5 票,B 得 8 票, C 得 9 票,排名是 C 高于 B 高于 A,当选的是 C,原先票数最高的 A 反而垫底!

上述怪诞的事实说明,在选民意志不变的情形下,选举规则的改变有时会在根本上颠覆(而非像直觉告诉我们的那样至多小幅改变)选举的结果。事实上,你很容易想到,除去上面所说的一票制和两票制,还有很多别的看似公平的选举方式,例如数学家J.  Borda 在 1770 年批评法兰西科学院选举制度时提出来的 Borda 计票法。Borda 认为如果每个人只投一票,那么选民对自己心目中除最优者之外的选项的偏好顺序就完全无从在选举中得以表达,而每人投两票或者更多票也不公平,因为那抹煞了每个人心目中最优和次优的区别。他建议,比方说还是有三个候选人的情况下,每个人给心目中的最优者投两票,次优者投一票,第三名不投票,这是最能完整表达投票者偏好顺序的方式。如果你把这个规则应用到上面那个实例,结果会变成 A 得 10 票, B 得 12 票,C 得 11 票,排名是 B 高于 C 高于 A,最后当选的是 B。——又是一个新结果。

事实上,把上面的论述抽象化一点。无论是一票制,两票制,还是 Borda 投票制,都可以看成排序投票制的特例。所谓排序投票就是每个人给候选人在心中排好一个偏好次序,然后给每个次序上的人投一定票数。这听起来是很合理的办法,唯一的区别只是第几名到底投几票而已,而数学家D. Saari却在上世纪末给出了下面这个荒谬的定理:

如果有 n 名候选人,那么可以找到合适的一组选民,使得这组选民在偏好不变的情况下,由不同的排序投票制给出多达 (n-1)(n-1)! 种不同的投票结果(这是一个非常大的组合数)。不仅如此,如果 n>3,那么可以找到合适的一组选民,使得在选民偏好不变的情况下任何候选人都通过选择一个合适的排序投票制当选。

也许你会认为这只是数学家们挖空心思构造出来的别扭反例罢了,在很多情况下,比如说,大家「万众一心地」认为 A 优于 B 优于 C,那么无论怎么投票,最终都会是A当选。这当然是没错的,不幸的事实是 D. Saari 和 M. Tataru 仔细估计了在三人竞选的情况下当选民人数足够多时这种「正常状况」(也就是无论怎么投票都是同一个人当选)和「异常情况」(也就是同样的选民 在不同的投票制度下选出不同的当选人)的出现几率,结果发现,「正常情况」的概率只有 30% 左右,也就是说,如果是三人竞选,那么大多数时候都能通过改变选举制度来影响最后的当选结果!

事实上,人们并不是第一天注意到选举结果对选举制度的强烈依赖性了。如果观察一下西方国家的大选制度,会发现虽然它们都号称是民主选举,但是具体的投票办法却几乎两两不同。以大家最为熟悉的美国总统大选为例,很多人都注意到,美国的大选并非全国统一计票,而是各州分别计票,然后每个州的胜者囊括该州的全部「选举人票」(其数额根据各州人口比例事先确定)。这是从美国立国早期就形成的「选举人团」制度,其用意在于平衡州权,放大人数上居于弱势的地区和团体的利益,防止少数人的利益被忽视。举例来说,某一利益团体或族群,比如亚裔,在全美的人口比例很小(占 4% 左右),那么如果全国统一计票,除非两名候选人得票咬得很紧,否则这 4% 的偏好并不会被得到特殊的重视。但是在选举人团制度下,由于亚裔在某些州(譬如加州)的比例很高(12%),那么这些亚裔的投票倾向就会影响到加州全部选举人票的走向,而加州的选举人票在全美举足轻重,于是本来人数很少的团体的力量就会被这种杠杆效应放大,从而得到更多的重视。二百年来这一投票办法已经成为美国政治制度的核心之一,虽然争议颇多,但是至今没有改变。

但是,正像我们前面看到的那样,既然采用了同普遍计票法不同的计票方法,就要面对最终的当选人同按照普遍计票法不一致的情况。最近(也是最著名)的 例子是2000 年总统大选,小布什以 271 张选举人票对戈尔的 266 张选举人票赢得了大选,而全国选票统计却是戈尔以 48.4% 的得票率胜过小布什的 47.9% 的得票率。很显然,戈尔面对的是一个看似不公平的结果(当然这取决于你怎样定义公平),并且只要美国继续采用选举人团制度,他就肯定不会是有此遭遇的最后一位竞选人。

回到我们一开始的问题,既然同样的一组选民可以在不同的选举规则下给出不同的结果,那么有没有别的方法来进一步比较这些选举规则的优劣呢?或者换句话说,如果事先定好选举制度,还会有什么别的问题可能发生呢?

让我们考虑下面这个有趣的例子。假定一个部门要招聘一个新人,有四个人竞争这个职位,在考察过他们的条件后部门内部对他们进行了评价,其中

有 3 个人认为 A 优于 C 优于 D 优于 B
有 6 个人认为 A 优于 D 优于 C 优于 B
有 3 个人认为 B 优于 C 优于 D 优于 A
有 5 个人认为 B 优于 D 优于 C 优于 A
有 2 个人认为 C 优于 B 优于 D 优于 A
有 5 个人认为 C 优于 D 优于 B 优于 A
有 2 个人认为 D 优于 B 优于 C 优于 A
有 4 个人认为 D 优于 C 优于 B 优于 A

如果事先约定只采用一票制,那么最后的结果是 A 高于 B 高于 C 高于 D,于是人力部门决定给 A 发出 offer。

假定就在此时,人力部门忽然收到 C 的通知,宣称由于收到了别的公司的 offer 要退出这次申请。那么这个时候人力部门是应该接着给 A 发 offer,还是宣布由于竞争者少了一位所以要重新投票呢?恐怕大多数人都会觉得,反正 C 本来得票也靠后,他的退出应该无伤大局才对。

实则不然,只要把上面那个表中 C 的名字划去重新统计就会发现,仍然是一票制的情况下,结果会变成 D 高于 B 高于 A,原先得票垫底的 D 才应该拿到这个 offer!

(事实上,如果你有兴趣,可以把退出的人从 C 换成 D 或者 B 或者 A,你会发现在这个例子里无论谁退出竞争,剩下的人的得票顺序都会整个颠倒过来。——当然这是精心构造的例子,一般说来不至于这么离谱。)

这个例子反映了投票制度的「混沌性」,或者说,结果对扰动的敏感依赖性。大家都知道的一句描述混沌现象的名言是「某地的一只蝴蝶扇动翅膀也许会影响到某一场飓风」,那么在这里我们可以说,「某一个次要竞争者的变化,也许会影响到重量级竞争者的崛起或者覆灭。」一个类似但是复杂得多的例子是在 2008 年年初的民主党党内初选中,希拉里和奥巴马双雄鼎立,希拉里略占优势。而爱德华兹一直屈居第三,终于在「超级星期二」来临之前的 1 月底宣布退出竞争,他的退出很快打破了希拉里和奥巴马的平衡,部分地促成了奥巴马在超级星期二之后的十连胜,最终逼得希拉里退选。

混沌性是由选举制度本身决定的,但是对不同的选举制度来说,其「混沌」的程度有所区别。关于排序投票制,D. Saari 给出过下面的结果:对于三个以上的候选人来说,大多数排序投票制都会容许一些特例使得选举结果在某一候选人退出时发生所有可能的剧变,只有少数投票法,例如 Borda 计票法,能够在一定程度上避免这种变化的幅度,例如至少避免原本排名第一的候选人忽然变成排名垫底。

这看起来像是说 Borda 计票法比别的排序投票制都要好,但是这要看是在什么意义上说。毕竟,Borda 计票法要求每个选民都要对所有的候选人有一 个完整的倾向排序,这在实践中往往是不可能实现的事情。而且正如上面的结果所描述的那样,即使采用了 Borda 计票法,也不能从根本上排除混沌的存在。

事实上,在投票这件事情上,我们面对的不仅是简单的数字游戏,而是人类社会最本质的问题之一:如何才有可能把社会中每个成员的意见,综合成为一个社会的整体意见?有趣的是,对这个问题最好的回答之一是以数学形式得到的。经济学巨擎,1972 年诺贝尔经济学奖得主 K. Arrow 在他的成名作 Social Choice and Individual Values 中给出了著名的 Arrow 定理,在这里考虑的是比投票更为普遍的情况,即如果一个集体中每个成员都对给定的一系列选项(或者候选人)有一组偏好顺序,那么一个「社会选择机制」能够在多好的程度上得到一个综合的排序。换句话说,需要找到一个函数,把所有人的排序映射为一个综合的排序,关于这个函数我们有下面这些自然的标准:

  • 非独裁性:这个函数的输出意见不能总是等于同一个人的输入意见,也就是说,不存在一个人的意见总是凌驾于所有人的意见之上。
  • 帕雷托最优:如果在每个人的排序中 A 都优于 B,在输出结果中 A 也应当优于 B。
  • 无关因素独立性:如果人们对 C 的看法改变了,不应当影响到结果中A和B的相对排序。

Arrow 定理是说,只要有三个或更多的候选者,就不可能存在一个函数,或者说社会选择机制,满足这些标准。

这个定理有很多种通俗的(也是容易引起误解的)解释和陈述方式,比如「所有的投票都不公平」或者「唯一理想的决策方式是独裁」,等等。但是事实上通过前面的讨论,我们很容易意识到这三个条件里最苛刻的是最后一条,即无关因素独立性。前两条看起来都是很自然的要求(事实上帕雷托最优性也有其争议性,不 过这一点按下不表),只有第三条,我们已经看到,受制于投票机制的混沌特征,是非常难于满足的。

这一结论看似是令人失望的。它意味着我们这个社会不仅暂时还不完美,而且永远都不会完美。正像我们在许许多多别的领域中看到的那样,这种不完美似乎是造物主的限定,也就是说,它并非出于某种粗糙的错误,而是理性和逻辑的必然。无论是数学中,还是自然科学中,这样的例子都数不胜数。

但是也正像许许多多别的领域中类似的例子那样,正是这些不完美才构成了这个世界的迷人之处。有了对现实中的不完美的解剖,和对更好的理想的无限追求,我们才有了演进的动力。正如深刻的理解了大洋彼岸这传奇式的经验和教训,我们才能更了解自己前进的方向一样。

而在这一切之中最迷人之处,则是这样复杂的现实可以被这样优美的数学所描述和论证。——诚然,人们对这个课题中的大量细节还所知甚少,还有大量的悖论等待澄清,大量的工具等待发明,但是第一步已经走了出去,人们已经意识到,人类的社会生活本身是有可能在某种程度上被数学语言所刻画和约束的。自上世纪中叶以来,在这个领域中已经产生了若干位诺贝尔经济学奖得主,也诞生了若干深刻漂亮的数学成果。社会科学和数学的交互作用已经成为蔚为大观的潮流。

而正像 D. Saari 在一篇名为《数学与投票》的文章中所说的那样,还有更多的挑战和机会就在前面等待着,一切还只是个开始而已。

长度是怎样炼成的 (四)若干注记

长度的意义说了这么多,到此差不多就可以告一段落了。但是关于在前面的讨论中出现的许多数学概念和思想,却还不妨多说几句。事实上,测度论虽然只是数学中一个具体的分支,但是它的发展和演进却和数学史上最有趣的篇章之一——所谓「第三次数学危机」——联系在一起。关于这桩公案,坊间的科普书目已经汗牛充栋,我也并不想在这里再重复一遍那些随手就可以找得到的八卦,而只是想针对某些特别的概念和理论略加说明,至少,这对愿意继续阅读别的数学或者数学科普著作的朋友来说,会有点作用吧。

1. 无穷小。

这个概念无疑常常困扰没有受过现代数学训练的阅读者们,这是很自然的事情,因为它可以从直觉上意识得到,却又难于精确地把握:无穷小是什么?是不是可以精确定义的数学概念?它是一个数?还是一段长度?能不能对无穷小做计算?诸如此类等等。由于这个概念几乎天然的和各种哲学式的思辨联系在一起,使得甚至哲学家们也对它颇为关注,——当然,还有数之不尽的民科们。

关于无穷小的讨论者,最著名的大概莫过于莱布尼茨,他花了大把的精力试图精确阐述无穷小的概念并且以此作为整个微积分学的基石。在莱布尼茨看来,无穷小是一个比任何数都小但是不等于零的量,对它可以做四则运算,尤为关键的是可以做除法:两个相关的无穷小量的比值就是一个函数的导数。以此为基本语言他开始建立微积分学的基本理论,——他基本上成功了。直至今天,数学家采用的关于微分的记号仍然来自莱布尼茨,而数学学科内部关于微积分学的专门称呼——「分析学」——也来自于莱布尼茨自己对他的理论的叫法:无穷小分析。尽管牛顿和莱布尼茨在微积分的发明权上争得不可开交,可是几个世纪过去,至少在这两件事情上莱布尼茨大获全胜。

可是,也许你想不到的一件吊诡的事情是:尽管莱布尼茨在微积分学的建立过程里做出如此重要的贡献,他的思想的基石——无穷小量——却是一个在今天的数学语言里被完全抛弃了的概念。人们发现这个词汇除了带来混乱之外并没有什么特别的用处,于是作为一种语言,它被丢弃了。

事实上,即使在莱布尼茨的同时期人看来,无穷小也是一个有点让人不舒服的词:比任何大于零的数都小,却不是零。我们当然可以把它仅仅作为一种人为的逻辑概念来使用,可是这样一个怪东西的存在,既使得数学的基本对象——实数的结构变得混乱,也在很多场合带来了麻烦的难于回答的问题(尽管它也确实带来了不少方便)。在分析学蓬勃发展的十八世纪,一代又一代数学大师为此争论不休,大家混乱而各行其是地使用这个词,却没人能说清楚它的精确含义。终于,从十九世纪初期开始,以柯西(Cauchy)和魏尔斯特拉斯(Weierstrass)为代表的一大批数学家开始为分析学的严密化做出了大量的工作,他们试图在完全不采用「无穷小量」这个概念的前提下重新建立整个分析学,——他们也成功了。

于是这个词就被抛弃了。时至今日,这个词尽管在很多数学书里仍然会出现,但是这时它仅仅作为一个纯粹修辞上的词汇而不是严格的数学概念,——人们通常用它来指代「极限为零的变量」(感谢十九世纪那一大批数学家,极限这个词已经是有了严密清晰的定义而不再仅仅是某种哲学性的描述),也有的时候它被用来作为对微积分运算中的某些符号的称呼,但是无论何时,人们在使用它的时候都明确的知道自己想说什么,更关键的是,人们知道自己并不需要它,而只是偶尔像借助一个比喻一样借助它罢了。

那么,回到这个词最本源的意义:到底有没有这样一个量,比一切给定的正实数都小却又不是零?或者这个问题还有一系列等价的提法:在直线上存不存在两个「相邻」的点?存不存在「长度」的最小构成单位?等等等等。

在今天我们已经能够确定无疑的回答这些问题了:不,不存在。

事实上,这个问题的彻底解答甚至比柯西和魏尔斯特拉斯的时代还要晚:它本质上是关于实数的结构的理解的问题。即使柯西本人——尽管他奠定了现代极限理论的基础——也并不真正了解「实数是什么」这样一个简单的问题。关于严密的实数理论的最终建立,一般认为是皮亚诺(peano),康托(Cantor)和戴德金(Dedekind)这几位十九世纪下半叶的数学家的成就。所谓的「戴德金分划」仍然是今天的教科书里对「实数」这一概念所介绍的标准模型。在这套模型里,人们能够在逻辑上完全自洽的前提下回答有关实数结构的一切问题,而正如前面指出过的那样,它完全摈弃了「无穷小」的存在。

(是不是数学家说无穷小量不存在,这个词就没意义了呢?)

这又回到了前面我们屡次面对的那个关于数学断言的权威性的问题。如果承认无穷小是一个有关数的概念,那么,数学家的工作已经告诉我们,在实数理论中没有无穷小的位置。事实上,康托本人就曾经证明过承认无穷小是同承认实数中基本的阿基米德原理相矛盾的。(阿基米德原理是一个关于实数性质的基本原理,如果阿基米德原理是错的,整个数学大概都无法得以建立。)但是,如果把问题拉到数学的疆域以外,如果认为人们有权利不按照数学家的方式讨论数本身的性质,那么我们面对的就已经是全然另一层次的问题,——也就不可能在这里得到详尽的讨论了。

2. 无穷大。

有趣的是,和无穷小如此相似的一个词——无穷大——却在今天的数学语言中占有与之判若云泥的一个地位:人们谈论它,研究它,还给它以专门的记号(∞)。造成这一多少有点奇特的事实的关键在于,和通常人们的误解不同,无穷大其实并不是无穷小这个词在概念上的对偶(尽管乍一看似乎如此)。事实上,就某种意义而言,说它是零这个词的对偶也许更为恰当一些。

让我们回顾一下这个概念在数学中的递进过程:我们都知道存在这样的数列(例如自然数列),可以一直变得越来越大,直到比任何给定的数都更大,这种时候,我们把这样的数列称为「趋于无穷大」或者直接就简称它是无穷大。——请注意,在这里无穷大仅仅是作为人们对一个数列或者变量的极限的叫法而存在的,我们并没有承认它是一个数或者一个确定的对象,而只是一个形容词而已。每个具体的数都不可能真的比别的数都大,尽管一系列数可以没有止境地变得越来越大,这实质上就是亚里士多德所强调的「潜无穷」。

如果事情只是到此为止,那一切相安无事,无穷大这个词今天的地位也只不过和无穷小一样仅仅作为对一种极限的描述而存在罢了。可是这里有某种微妙的差别:正如前面提到过的那样,「无穷小」不是别的,只是一个变量极限为零而已,所以我们总可以认为无穷小只是一种说法,在必要的时候可以用「趋于零」这样一个替代说法来换掉它。可是「无穷大」是什么极限呢?它并不是趋于任何特定数字的极限,而是「趋于无穷大的极限」,你看,这个词轻易回避不掉。

于是人们只好被迫不断的提及它,要是非要替换成别的说法,就要花好多倍唇舌才成。比如,前面说过直线本身也是直线的可测子集,那么整条直线的测度是多少?当然我们可以佶屈赘牙地说「直线可测,但是它的测度并不是一个确定的数,而只是比任何给定的实数都要大。」——这也太麻烦了一点。为什么不省点事直接说「直线的测度等于无穷大」呢?

这样人们就开始不断的把无穷大当一个名词来使用,假装它好像也是一个数一样,这就是所谓的「实无穷」。哲学家和数学家中比较喜欢哲学争辩的那一部分人对此有许多争论(直觉主义学派等等),但是让我们忽略掉它们,先看看在今天数学家是怎么使用这个词的吧。

首先,无穷大不是一个实数,在实数集中不存在任何数比其他所有数更大,这是确定无疑的事情。

其次,在许多场合下,我们确实可以把无穷大当作一个名词来使用,既方便又不造成困扰。例如前面提及的在测度论里我们说一个可测集的测度是一个「数」,这里的「数」既包括非负实数也包括无穷大。事实上,在有些数学书里索性把实数加上无穷大这样一个集合称为「增广实数集」。我们甚至可以对无穷大定义运算(在事先做好严格约定的前提下),这对于很多理论的叙述带来了极大的方便。如果说得更技术化一点,在很多数学分支(例如仿射几何)里我们还能像让每个实数对应于直线上的一个点这样一个几何对象一样,让无穷大这样一个特殊的对象也对应于一个特殊的几何对象(所谓的「无穷远点」),并且让所有这些几何对象平等地参与到几何学中来。只要仔细做好事先的公理准备,这样子做并不会引起任何逻辑问题。

——也许有人会觉得奇怪,怎么数学家可以如此随便,想给实数集添上什么就添上什么?事实上,数学家就是有这样的权利,因为说到底,数学不是研究真实自然界的学问,而只是研究人造概念的学问。任何人造概念,只要在逻辑上被严格的描述出来又不造成内在的逻辑不自洽,都可以被认为是「存在」的。复数的引进就是一个很好的例子。

——那前面怎么又说「无穷小不存在」?就算无穷小本身不能是一个实数,为什么不能把它添在实数集之外也弄一个「增广实数集」出来研究?

事实上,这样做是可以的,而且事实上也确实有好事者这样做过。问题在于它毫无意义。前面说了,任何人都有权利自己定义出一些什么东西来作为数学对象来研究,这是对的,只要他在逻辑上足够细心就行。可是这句话还有一个常常被人忽视的反面:数学尽管不是直接研究自然界的学问,可是它毕竟是在人们研究自然界的过程中形成而又有助于人们对自然界的理解的。如果一个数学概念纯粹只是自说自话的产物,那无论它多么自洽,也没有人会去关心它。复数这一人为的构造之所以被所有人承认是因为它巨大的威力。而无穷小——正如前面所指出的——是一个毫无必要引入的概念,添上它只会自找麻烦。无穷小和无穷大的命运之所以不同,关键正在于此。

回到无穷大这个词上来。这一系列文章的一开头还说过无穷大可以分成「可数」和「不可数」的无穷大,那又是怎么回事?

这是一个更常见的误解,这其实是两个不同的词:作为一个极限的(潜)无穷和由此引申而来的作为一个数学对象的(实)无穷是一码事,作为一个集合的势的可数无穷或者不可数无穷是另一码事,不同于前者的「无穷大」,后者其实应该被称为「无穷多」才对,只是人们通常混为一谈。事实上,当我们说「一个集合有无穷多个元素」的时候,我们有必要指出这个集合是不是可数,而当我们说「一条直线的测度是无穷大」的时候,却完全谈不上什么可数不可数。——在数学书中通过观察上下文,分辨这两者并不是很难的事情,可是如果把「无穷」作为一个哲学命题来研究的时候,这种区分却是必须的。——不幸的是,就我阅读所及,很多时候人们都没做到这一点。

3. 不可测集与选择公理、数学的严密性

回顾一下「不可测集」这个词的意思:在勒贝格测度的意义下,总有一些集合是没办法定义测度的,这样的集合称为不可测集。同时已经被我们反复指出过的一点是:一个没受过专门数学训练的人所能想象到的任何古怪集合其实都是可测的,不可测集非常罕见。

不可测集的存在是数学中中一件令人遗憾的事实,要是能给直线的任何一个子集定义长度,这样的理论该有多么漂亮啊……数学中常常有这样的情形,一个人们通过直觉认定的美妙设想,偏偏被一两个好事者精心构造出的反例破坏了,但是数学毕竟受制于逻辑,不管一个反例多么煞风景,只要它确实成立,数学家也只好接受它。

可是不可测集这个例子有点不同:构造不可测集,用到了选择公理。

这件事情说来话长,简单的说,我们都知道整个数学是建立在一些很显然也很直观的公理之上的,这些公理大多数都是诸如等量之和为等量之类的废话,可是选择公理稍微复杂一点,它是说:

任何给定一组非空集合,我们总能从其中的每一个集合里取出一个元素组成一个集合。

也像废话一样,是吧,可是这句话多少有点罗嗦,不像等量之和为等量一样简单明了。于是人们对它多少有所争议,有人认为它不应当排在基本公理之内。可是毕竟这句话也挑不出什么错,而且人们很快发现,很多很有用的数学结果离开选择公理就变得很难证明或者根本不可能证明,于是将就着也就承认它了。

可是不可测集的存在却又掀起了人们的疑虑,反对选择公理的人说,看看吧,要是没有选择公理,也就没有不可测集了。

赞成的人反驳说,不可测就不可测呗,有什么大不了的……虽然整个理论确实变得不那么完美了。——他们不知道更大的问题还在后面。1924 年,波兰数学家巴拿赫(Banach)在选择公理和不可测集构造法的基础上,证明了石破天惊的「分球定理」:一个半径为 1 的实心球,可以剖分成有限的若干块,用这些块可以完整地重新拼出两个半径为 1 的实心球体!

这一下引起轩然大波,反对选择公理的数学家们声势大振,认为选择公理完全是 trouble maker,必欲除之而后快。赞成选择公理的数学家们则指出选择公理「功大于过」,毕竟有很多有价值的数学成果出自选择公理的基础。双方僵持的结果是大家各行其是,大多数数学家承认选择公理,同时忍受巴拿赫分球定理所带来的不适感,少数数学家坚持不要选择公理,为此失去很多别的很有用的定理也在所不惜。

这一僵持局面维持了很多年,直到二十世纪的中叶才被戏剧性地解决。人们在不承认选择公理的假设下构造出了一大堆比巴拿赫的球体更严重的反例(例如一个空间同时有两个维数)。这些反例不只像巴拿赫的例子一样违反直觉,而且还严重的破坏了大多数已有的数学结果。于是人们发现,承认选择公理也许是必须的,而像巴拿赫的反例那样的反直觉的结果,也只能被迫承担下来了。

所以到今天几乎所有的数学研究都是在承认选择公理的基础上进行的。虽然作为一种后遗症,人们总是会时不时地谨慎的在使用选择公理的时候加上一句声明:「本文依赖选择公理。」——这也许是这条公理的一个特殊待遇了。

以上便是这段公案的来龙去脉。很多人可能在读完这段故事之后疑虑重重。什么啊?数学家们难道是这么随便的确定公理体系的么?如此的实用主义,似乎全然置真理的地位于不顾的样子。很多人可能还会想起欧几里德第五公设的故事,觉得数学家们原来如此不负责任,带给人们的不是一套严整规范的理论体系,而是一个支离破碎的混乱图景。连公理的问题都搞不定,整个数学岂不是空中楼阁?

限于篇幅,这篇文章不可能对这个问题予以展开论述,可是至少我们可以澄清一个常见的似是而非的误解:数学是严密性的科学,数学的发展也只有在严密的公理化基础上才能得以实现。

这句话——至少在字面上——是对的。不可测集的例子本身就说明,为了严密性,数学家们甚至不惜放弃直观,——像巴拿赫球那样的例子尽管如此怪诞,可是它是严密逻辑的产物,数学家也只好承认它的存在。

可是在更宏观的层面上,这句话却是错的。前面提到的分析学就是很好的例子:微积分的思想的提出是在十七世纪,在随后的十八世纪里取得了丰硕的成果,可是它的严密化却直到十九世纪下半叶才真正得以实现。测度论是另一个例子:「测度」是人们对于长度这个词的直观理解的严密化,可是这并不是说,在测度论被提出之前的漫长岁月里人们对于长度都一无所知,恰恰相反,人们已经知道了相当多的事情,只是等待测度论的语言让一切都变得精确和完整而已。

所以数学的发展实质上是一个拖泥带水的过程,一代又一代崭新、充满活力却又粗糙的思想被提出来,人们意识到它的重要性,予以发扬光大,产生一系列重要的成果同时又带来困惑,直到崭新的数学语言诞生,清理战场,让一切显得井井有条,像教科书上的文字一样道貌岸然,而同时却又有新的粗糙的思想诞生了……在这个过程里,严密性始终只是一个背景,尽管无处不在,可是并不占据舞台的统治地位。数学家们在意严密性,追逐严密性,甚至不惜为了严密性而牺牲看似有价值的学术成果,可是严密性并不是数学发展的引领旗帜,从来都不是。

这就是为什么同很多人的误解相反,大多数数学家其实并不关心那些关于数学基础的哲学性的争论,这也就是为什么我把眼前这些讨论放进附记的原因——一件事情是不是关系到数学的逻辑基础和这件事情在数学上是不是重要一点关系都没有。所有这些故事:可数与不可数、可测与不可测、选择公理等等,都是和二十世纪初所谓「第三次数学危机」的大背景联系在一起的,那段时间里数学家之间产生了无数纷争,可是今天的数学学生们在严肃认真地学习集合论和测度论的同时,却只对那些八卦付之一笑,作为茶余饭后的谈资。——事实上,即使在二十世纪初,也有大量的数学家根本不关注这件事情或者压根就采取了日后看来是错误的立场(反对康托,反对不可数集的概念,等等)却同时又在自己的领域里作出了重要的甚至是历史性的贡献。

关于那个所谓的「第三次数学危机」,有一本著名的科普著作《数学:确定性的丧失》[2]专门讨论了它。这本书内容相当详尽,不幸的是它所引起的误解和它阐明的事情一样多。关于这次「危机」的描述主要集中在第十二章,那一章的结尾倒是相当深刻,值得特别引用在此:

「一个寓言恰如其分地概括了本世纪有关数学基础的进展状况。在莱茵河畔,一座美丽的城堡已经矗立了许多个世纪。在城堡的地下室中生活着一群蜘蛛,突然一阵大风吹散了它们辛辛苦苦编织的一张繁复的蛛网,于是它们慌乱地加以修补,因为它们认为,正是蛛网支撑着整个城堡。」

参考文献[1]:实变函数论 周民强著 北京大学出版社
参考文献[2]:数学:确定性的丧失 M.克莱因著 李宏魁译 湖南科学技术出版社

长度是怎样炼成的 (三)长度的意义

回到我们的主题:「长度」的意义上来。

先总结一下我们已经知道了的事情:

所谓(一维)测度,就是要给直线上的每个子集标上一个数字,使得它们满足下面两条性质:

  • 空集对应的数字(空集的测度)是零。
  • 若干个(但是至多可数无穷个)彼此不相交的子集,它们并在一起得到的子集的测度,刚好等于这些子集各自测度之和。

这样的测度存在很多种,而且几乎全都行为古怪。为了更好的符合「长度」的概念,我们添上第三条要求:

  • 如果把直线看作实数轴,那么从数轴上a点到b点的线段(这是直线的一个子集)对应的测度应当等于 b-a。

满足这三条性质的对直线上的每个子集定义的测度是不存在的。但是,如果放松要求,不对直线的每个子集定义而只对直线的可测子集定义测度,那么这样的测度存在并且唯一,数学上称为勒贝格测度。靠一系列定理的帮助,对直线的任何一个可测集(一般来说你能想象到的任何子集都是可测集),都有一套严密定义的公式能够把这个测度的具体大小算出来。

于是,数学家郑重宣布:

勒贝格测度就是人们通常所说的「长度」的严密定义,而且是唯一正确的定义。

「什么?」我们的哲学家朋友们一定要跳起来了。「你上面绕来绕去的说了一大堆让人听不懂的话也就罢了,你怎么能说这是关于长度唯一正确的定义呢?这顶多是你们数学家对这个词的理解而已,我最讨厌你们学理科的用这种自以为掌握绝对真理的口气说话了!」

「是么?」数学家回答道,「难道长度这个词还可能有别的理解不成?」

「当然可以。」哲学家愤愤不平地说。「亚里士多德说过……,莱布尼茨说过……,康德说过……,江泽民同志说过……,总之,人类对长度这个词的理解是经历过漫长的争论的,而且必然还会一直争论下去。每个人都有权提出自己的观点啊。」

「我不管他们怎么说,」数学家说,「我只问你心里有没有对长度的定义?」

「当然有了。」哲学家骄傲地说,「我认为,长度就是……」

「慢着,」数学家迫不及待的打断他,「我不想听你的哲学论文,我只问你,在你对长度的定义里,空集有没有长度?有的话,是不是零?」

「是……的。」其实哲学家暂时没想到空集这么细节的事情,但是他觉得反正这个无关紧要吧,所以先首肯了。

「那么,按照你定义的长度,数轴上从 2.76 这个点到 6.98 这个点的线段的长度,是不是等于 6.98-2.76=4.22?」

「这个废话,不然还叫什么长度啊。」哲学家有点不耐烦了。

「还有,如果我把可数无穷个有长度的集合放在一起,总长度等不等于各自的长度之和?」

「这个……」哲学家对于「可数无穷」这个词有点拿不准,「反正两个线段的总长度是等于它们各自的长度之和的,至于无穷个……好吧就算是吧,那又怎样?」

「那就结了。」数学家慢条斯理地说。「我根本不关心你关于长度的哲学观念是怎么建立起来的,我只想说,如果你的观念没有内在的逻辑矛盾,那它就一定和我们数学家所说的勒贝格测度是一回事。这就是我为什么说勒贝格测度是唯一正确的长度的定义。——你当然可以有你自己的定义,只不过它一定正好就是勒贝格测度!」

「什么和什么呀!」哲学家有点懵了。「可是你什么也没有定义啊,你只是自己号称证明了一个所谓勒贝格测度的存在,可是我们关心的是为什么!我们哲学家要问的是为什么从 2.76 这个点到 6.98 这个点的线段的长度等于 4.22,你却把它写在了定义里,这并没有回答问题本身啊。」

「唉,」轮到数学家不耐烦了。「从 2.76 这个点到 6.98 这个点的线段的长度当然也可以不等于 4.22,只要你不取勒贝格测度而换一种测度就成了,——问题是人们不喜欢那样啊。不是为什么它的长度等于 4.22,而是你首先要求了 4.22 这一属性,然后把它叫做长度。为什么只有在春天桃花才会开?因为是你把桃花会开的那个季节叫做春天的!」

哲学家:「……」

数学家:「……」

嗯,我不知道这段对话是把问题讲清楚了还是搅得更混乱了。当然这里面还有许许多多的细节需要阐明,下面让我们来更仔细的讨论一下吧。

「长度是什么?为什么从 2.76 这个点到 6.98 这个点的线段的长度等于 4.22?」正如前面那个数学家所说的,这个问法本身就是不合适的。我们给从 2.76 这个点到 6.98 这个点的线段赋予一种属性是 4.22,给从姚明的头到姚明的脚的线段赋予一种属性是 2.26 米,现在我们把这种属性叫做长度,如此而已。——这完全是人为的设定,没有任何先验的意义。数学家已经说了,你当然也可以给从 2.76 这个点到 6.98 这个点的线段赋予另一种属性是 3.86,给从姚明的头到姚明的脚的线段赋予另一种属性是 0.03 米,只要你足够细心,这种做法是不会引起问题的,只不过你自己定义的那种属性不再被人们称作「长度」罢了。你可以把它称为「短度」或者别的什么,没有问题。

有趣的是,——测度论的伟大也就体现在这里,——只要我们承认了诸如从 2.76 这个点到 6.98 这个点的线段的长度等于 4.22 这样一些朴素的论断,那么仅仅靠着逻辑推演,我们就能够给直线的几乎所有子集——可测集——计算出对应的「长度」来,哪怕它们已经变得不是那么直观。譬如说,单点集的「长度」是 0(不是什么无穷小,就是 0),2 到 5 之间的全体无理数的集合的「长度」是3,某个广义康托集(一种有着复杂分形结构的点集)的「长度」是2.86……这一切本来似乎都可以问一问为什么的事情,其实都只是逻辑的自然推论罢了,你要是不承认它们,就必然导致逻辑上的不自洽。

——为什么这个东西的长度是 0?那个东西的长度是 2.3?为什么这个奇奇怪怪的集合也会有长度?为什么它的长度不等于别的,偏偏等于根号 2?

因为长度满足那三条性质,所以必然如此。

——为什么长度要满足那三条性质?

因为人们把满足那三条性质的属性就叫做长度。你当然也可以用别的几条性质定义出来一个什么度,只是不能再叫长度就是了。

这就是「长度」这个词的全部意义。

「可是,」我们的哲学家还是不甚满意,「我还是觉得你没有真正回答我想问的问题。」

「还有什么呢?」数学家说,「我上面这些理论不都已经自圆其说了么?」

「就是这个自圆其说让我特别恼火。」哲学家说。「我总觉得你绕过了我真正的问题。我问为什么长度要这么定义,你说因为人们把这样定义出来的属性就叫长度,这当然没错,可是我其实想问的是,为什么会有这样一种属性存在?为什么自然界中的事物可以具有长度——或者用你的话说——这种属性?你当然可以告诉我说,因为数学上证明了你的那什么勒贝格测度一定存在,可是我不想听你那个证明,我想听到的是一个更深入的解释,为什么长度是得以存在的?」

「因为……因为我们能证明它实际上存在……」数学家迷惑不解的说。

「我不是问你它存不存在,我是问它为什么存在!」哲学家怒气冲冲的说。「你不觉得这是件不太自然的事情么?反正是一堆点,你又说了点的长度是零,可是一旦把点排列起来得到的线段就有了测度,在这个过程中发生了什么呢?这个不为零的长度是怎么出现的呢?——别又对我说你能证明它不为零,我要问的是为什么,——比证明更本质一步的那个为什么!」

「啊,」数学家字斟句酌地说,「你想问的其实是为什么线段的测度不等于简单地把点的测度加在一起对吧。是啊,这确实是个有趣的问题……」

这确实是个有趣的问题。

如果我们仔细检查关于勒贝格测度的那三条公理,会发现关于第一条和第三条并没有什么可多说的,可是第二条——至多可数个彼此不相交的子集的并集的测度等于这些子集各自测度之和——却多少让人心生疑惑。这句话读起来总是有点别扭。

如果我们把它换成「有限个彼此不相交的子集的并集的测度,等于这些子集各自测度之和」,听起来就会舒服多了,可是这里做了某种推广,从有限到无限,而且还不是任意无限个而是「至多可数无穷」个,这是为什么呢?

首先,这种推广是必须的:只对有限个的子集定义测度的可加性,这样得出来的测度会不满足人们的需要,——不仅仅是给长度一个精确定义的需要。测度论不只是为哲学家发明的,它要在数学的其他领域里以及别的自然科学领域里得到应用,而在这些场合里,我们时刻会碰到对无穷个集合的并集的测度的计算。我们必须在定义里就保证测度能够无穷相加。

可是另一方面,为什么又偏偏要限制可数无穷个集合才有可加性呢?

事实上,我们很容易就会发现,正是这一点促成了前面那个问题的出现:为什么线段具有长度?如果我们假设任意无穷个彼此不相交的子集的并集的测度等于这些子集各自测度之和,那么,既然线段是由无穷个点构成的而点又没有长度,那线段也应该没有长度才对。难道这一条是专门为了避免这个悖论才设置的么?

不是。我们很快就能看到,这种对于可数性的限制,有着更为本质的原因存在。

首先,让我们想想看把很多数相加是什么意思。我们一开始学到的加法是针对两个数而言的,给定任意两个数,我们能够算出它们的和。进而,我们把这一过程推广到了三个数求和:先对其中两者求和,然后再把这个和同第三者相加。依此类推,我们可以把四个数相加,把五个数相加……

请注意,这里的过程完全是递归的(inductively):只有定义了 n 个数的和,我们才能够继而定义 n+1 个数的和。然后,这样一直进行下去,我们就能够对任意有限多个数求和。——只是「任意有限」,还不是「无限」。

从有限到无限这一步跨越其实走得颇为艰难。哲学家也好别的领域的科学家也好常常随心所欲的使用数学词汇而并不特别在意自己是否真的明了它们的严格意义,可是数学家却不能如此自由。真正把无穷个数加起来,也就是数学中所谓的「级数」(series),这套理论的严密化在数学史上经历了相当长的一段时间。最终,借助于极限理论的帮助,真正严格的关于级数求和的理论才得以建立。——也就是说,事实上,什么样的无穷级数可以相加,什么时候不能相加,相加的时候要注意什么问题,这一切都受到了理论的约束。在这些理论的基础上,我们才能够确定当我们随口说出「把这无穷个数加在一起」的时候,我们确实知道我们在说什么。

什么是级数呢?级数就是把有限个自然数相加的自然推广:既然定义了n个数的和我们就能够进而定义n+1个数的和,那么,把这个过程递归地进行下去,我们就能够对任意有限多个数求和。当有无穷个数需要我们求和的时候,我们就只对它们中的前N个求和,并且让这个N不断变大,如果这一过程有极限,这个极限就被我们称为这个无穷数的和。

请注意上面这段话背后的涵义:当我们说「对无穷个数求和」的时候,我们其实潜在地要求了这些数的总个数必须能够通过 n->n+1->n+2……这样的过程来逼近,然后通过极限的方式定义它们的和。这也就是说,这些数的总个数必须是可数个!

让我们回忆一下什么是「可数个」:「可数个」就是能够和自然数集建立起一一对应的那么多个,用更直观的语言来说,「可数个」就是「可以一个一个数下去」的那么多个。只有一个集合里包含可数个元素的时候,我们才能够对于它应用数学归纳法,因为数学归纳法的本质就是「一个一个数下去」:当一件事对 n 成立时,我们进而要求它对 n+1 成立,这样的过程进行下去的极限,就是可数无穷。

那么,既然多个数的加法本质上是个递归过程,——只有先把 n 个数加起来,我们才能进而加上第 n+1 个数,——所以加法至多能对「可数无穷」个数来定义(也就是级数加法)。把「不可数无穷个」数加在一起,这件事情是毫无意义的!

这正是前面所有那些所谓哲学悖论的根源:当人们想当然的说着「把无穷个点的测度加在一起」的时候,他们以为他们是在说一件自然而然的事情,可是事实上,除非这无穷个点是可数个,否则这里的加法根本无法进行。不幸的是,任何线段都偏偏是由不可数个点构成的(它们是连续统)。

为什么线段是由点构成的,而线段的测度却不等于组成它的那些点的测度之和?因为「组成它的那些点的测度之和」这个短语根本没有意义,所以两者也不必相等。

这个回答也许有些出人意料,可是事情就是如此。很多问题之所以令人迷惑,不是因为它们真的是什么悖论,而只是因为问题本身没有被恰当的叙述。人们常常自以为是的使用很多词汇却罔顾自己是不是了解它们的真实含义,譬如说「求和」。人们随心所欲地说「把若干个数加在一起」却忘了其实不可能真的把它们「一下子」加在一起,加法是个递归过程,这就决定了如果要加的东西的个数太多(不可数那么多),它们就加不起来了。

(不得不补充一点——一个很扫兴的补充——在数学中,某些场合下我们真的必须要对不可数个数定义总和……数学家总是这样,为了各种极端情况而拓展自己的定义。在这些情况下,这种不可数个数的和也是能定义出来的。但是,这件事并不会对上面那些论述造成削弱:这里的特殊意义上的「和」是为了应付特别的目的而定义的,它和我们平时所说的求和已经不是一个意思了。)

也许哲学家还会追问:既然线段的测度不是组成它的那些点的测度之和,那么这个测度是从哪里来的呢?

它们不是哪里来的……它们是线段自己所固有的。这就是为什么我们在定义长度的时候非要加上第三条公理的原因:我们必须在定义里就写明线段的测度,否则就没有办法建立起直线的所有可测子集的测度的架构。事实上,既然点的长度是零,根据可数可加性我们很容易推出一切可数集的长度也都是零,所以在某种意义上说来,「长度」是本质上只属于连续统的一种性质。换句话说,只有进入了连续统的范畴,不为零的长度才可能出现。这就是为什么我们不能从单点集出发定义长度的原因。

那么,我们现在可以回答那个著名的「飞矢不动」的芝诺悖论了:一支飞驰的箭,在每一个确定的时刻都静止在一个确定的位置上,为什么经过一段时间后会移动一段距离?

答案是:因为任何一段时间(不管多么短暂)都是一个连续统,包含了不可数个时刻,所以箭在每一时刻的静止根本不需要对一整段时间之内的移动负责。——后者并不是前者的相加,而前者也根本不可能相加。

因为连续统不可数,所以我们能够在每时每刻里都静止的存在,同时又能在一段时间内自由运动。这也许是大自然的巧妙安排吧。