不确定性原理的前世今生 · 数学篇(一)

在现代数学中有一个很容易被外行误解的词汇:信号 (signal)。当数学家们说起「一个信号」的时候,他们脑海中想到的并不是交通指示灯所发出的闪烁光芒或者手机屏幕顶部的天线图案,而是一段可以具体数字化的信息,可以是声音,可以是图像,也可是遥感测量数据。简单地说,它是一个函数,定义在通常的一维或者多维空间之上。譬如一段声音就是一个定义在一维空间上的函数,自变量是时间,因变量是声音的强度,一幅图像是定义在二维空间上的函数,自变量是横轴和纵轴坐标,因变量是图像像素的色彩和明暗,如此等等。

在数学上,关于一个信号最基本的问题在于如何将它表示和描述出来。按照上面所说的办法,把一个信号理解成一个定义在时间或空间上的函数是一种自然而然的表示方式,但是它对理解这一信号的内容来说常常不够。例如一段声音,如果单纯按照定义在时间上的函数来表示,它画出来是这个样子的:

 

这通常被称为波形图。毫无疑问,它包含了关于这段声音的全部信息。但是同样毫无疑问的是,这些信息几乎没法从上面这个「函数」中直接看出来,事实上,它只不过是巴赫的小提琴无伴奏 Partita No.3 的序曲开头几个小节。下面是巴赫的手稿,从某种意义上说来,它也构成了对上面那段声音的一个「描述」:

 

这两种描述之间的关系是怎样的呢?第一种描述刻划的是具体的信号数值,第二种描述刻划的是声音的高低(即声音震动的频率)。人们直到十九世纪才渐渐意识到,在这两种描述之间,事实上存在着一种对偶的关系,而这一点并不显然。

1807 年,法国数学家傅立叶 (J. Fourier) 在一篇向巴黎科学院递交的革命性的论文 Mémoire sur la propagation de la chaleur dans les corps solides (《固体中的热传播》)中,提出了一个崭新的观念:任何一个函数都可以表达为一系列不同频率的简谐振动(即简单的三角函数)的叠加。有趣的是,这结论是他研究热传导问题的一个副产品。这篇论文经拉格朗日 (J. Lagrange)、拉普拉斯 (P-S. Laplace) 和勒让德 (A-M. Legendre) 等人审阅后被拒绝了,原因是他的思想过于粗糙且极不严密。1811 年傅立叶递交了修改后的论文,这一次论文获得了科学院的奖金,但是仍然因为缺乏严密性而被拒绝刊载在科学院的《报告》中。傅立叶对此耿耿于怀,直到 1824 年他本人成为了科学院的秘书,才得以把他 1811 年的论文原封不动地发表在《报告》里。

用今天的语言来描述,傅立叶的发现实际上是在说:任何一个信号都可以用两种方式来表达,一种就是通常意义上的表达,自变量是时间或者空间的坐标,因变量是信号在该处的强度,另一种则是把一个信号「展开」成不同频率的简单三角函数(简谐振动)的叠加,于是这就相当于把它看作是定义在所有频率所组成的空间(称为频域空间)上的另一个函数,自变量是不同的频率,因变量是该频率所对应的简谐振动的幅度。

这两个函数一个定义在时域(或空域)上,一个定义在频域上,看起来的样子通常截然不同,但是它们是在以完全不同的方式殊途同归地描述着同一个信号。它们就象是两种不同的语言,乍一听完全不相干,但是其实可以精确地互相翻译。在数学上,这种翻译的过程被称为「傅立叶变换」。

傅立叶变换是一个数学上极为精美的对象:

  • 它是完全可逆的,任何能量有限的时域或空域信号都存在唯一的频域表达,反之亦然。
  • 它完全不损伤信号的内在结构:任何两个信号之间有多少相关程度(即内积),它们的频域表达之间也一定有同样多的相关程度。
  • 它不改变信号之间的关联性:一组信号收敛到一个特定的极限,它们的频域表达也一定收敛到那个极限函数的频域表达。

傅立叶变换就象是把信号彻底打乱之后以最面目全非的方式复述出来,而一切信息都还原封不动的存在着。要是科幻小说作家了解这一点,他们本来可以多出多少有趣的素材啊。

在傅立叶变换的所有这些数学性质中,最不寻常的是这样一种特性:一个在时域或空域上看起来很复杂的信号(譬如一段声音或者一幅图像)通常在频域上的表达会很简单。这里「简单」的意思是说作为频域上的函数,它只集中在很小一块区域内,而很大一部分数值都接近于零。例如下图是一张人脸和它对应的傅立叶变换,可以看出,所有的频域信号差不多都分布在中心周围,而大部分周边区域都是黑色的(即零)。

这是一个意味深长的事实,它说明一个在空域中看起来占满全空间的信号,从频域中看起来很可能只不过占用了极小一块区域,而大部分频率是被浪费了的。这就导出了一个极为有用的结论:一个看起来信息量很大的信号,其实可以只用少得多的数据来加以描述。只要对它先做傅立叶变换,然后只记录那些不接近零的频域信息就可以了,这样数据量就可以大大减少。

基本上,这正是今天大多数数据压缩方法的基础思想。在互联网时代,大量的多媒体信息需要在尽量节省带宽和时间的前提下被传输,所以数据压缩从来都是最核心的问题之一。而今天几乎所有流行的数据压缩格式,无论是声音的 mp3 格式还是图像的 jpg 格式,都是利用傅立叶变换才得以发明的。从这个意义上说来,几乎全部现代信息社会都建立在傅立叶的理论的基础之上。

这当然是傅立叶本人也始料未及的。

漩涡


「当我去见上帝时,我要问他两个问题。为什么有相对论?为什么有湍流?我很相信他能回答上来第一个。」

上面这句话据传来自于海森堡。像一切科学史上著名的俏皮话一样,它的真实性颇为可疑。不过无论如何,它还是成了人们介绍湍流理论时最常引用的一句名言。

湍流之复杂,在数学上可以理解为三维空间中的流体方程的困难。在 Clay 研究所提出的七个千年数学难题中,第六位即是三维空间中流体方程的光滑解的存在性。大致上说,这个问题可以用生活中的语言叙述为:

给定三维空间中的一个流体的初始状态,证明这个流体会一直光滑地流动下去。

从物理的角度来看,这几乎是一句废话。正因为如此,几乎没有数学家会怀疑这个猜想的正确性。他们只是没法严格证明出来而已。

有趣的是,如果把空间从三维变成二维,情况会大不相同。上世纪三十年代开始人们就证明了在二维空间里流体方程解的存在性,并且意识到二维流体和三维流体在数学上表现出迥然相异的性质。在数学上,这种区别的根源在于在三维空间中「旋度」是一个矢量场而在二维空间中是一个标量场。简单地说,这意味着在三维空间中复杂的湍流在二维空间中就变成了人们更为熟悉的对象:漩涡。


 

从上世纪四五十年代开始,人们意识到二维空间中的漩涡就像一个个粒子一样,可以彼此之间发生作用。事实上,人们可以反过来通过分析漩涡的位置和运动,来重构出整个流体向量场,这反应出漩涡在对二维流体运动的理解中的本质地位。漩涡有顺时针和逆时针之分,同样方向的漩涡如果相撞,就会合并在一起。这促使人们采用类似于研究气体分子撞击所采用的统计物理模型来理解二维流体中的漩涡。描述漩涡之间相互作用的那些方程和描述粒子之间相互作用的方程在数学形式上是类似的,有趣的是,在描述粒子运动的统计物理方程中表示「绝对温度」的那一项,在描述漩涡的方程中是个负数。也就是说,充斥着漩涡的二维流体在某种意义上可以看做是一个「负温度」的空间。下面这幅图是用计算机模拟出的两个漩涡相撞时的场景。

 

不过为什么人们要研究二维空间中的流体呢,既然我们生活的空间是三维的?

数学家们总可以说是为了好奇心,不过实际上,二维流体在我们生活中甚至比三维流体还要重要:我们的大气层厚度远小于横向尺度,所以基本上可以看做是完美地二维流体,海洋中的洋流也是这样。下面这两幅照片来自 NASA,前者是太平洋 Aleutian 群岛上空的云层图样,后者是在 Alexander Selkirk Island 上空拍摄的。


上面这几幅图中的漩涡结构被称为卡门涡街。这个名字来源于上个世纪的流体力学大师,钱学森的老师冯·卡门。他最早从理论上阐明了发生这一现象的数学条件。据说他曾经在意大利北部博洛尼亚的一个教堂里目睹了一幅圣克里斯朵夫背负少年基督赤足渡河的油画,圣克里斯朵夫的脚在水中带起了两排交错的漩涡。卡门说,这是人们关于涡街的最早的观察记录。

在实验室里也可以制造出相当严格的二维流体,办法是通过肥皂薄膜。这些薄膜上的小漩涡们,看起来居然和蒙克笔下呐喊的小人有一点像。

 

当梵高画出那幅著名的《星夜》的时候,有没有想到过这些漩涡的意义会被后人反复追寻呢?

出租车几何学及其它

在 matrix67 的一篇 blog 里提到了所谓的「出租车几何学」,也就是在一个完全是棋盘格街道的城市里,两点之间的距离由其横纵两个方向上的差距之和所决定的这种情况。很显然,这正好是一个标准的赋予 L1 度量的 \mathbb{R}^2 空间。

和标准的 L2 欧氏度量相比,这个度量有很多好玩的性质,比如这个度量下的「圆」其实是一个正方形。

这个平面上两个点的「垂直平分线」(也就是到两个点的 L1 距离相等的点集)其实是一条折线。

但是有些区别是更本质也更有意义的。比方说,假定有一条街道是斜着的,并且倾斜角不等于 45°,那么从街道外任何一点出发,到这条街道上的最短路径一定是全水平或者全竖直的。

这件事情有其重要的价值:抽象地说,这意味着在给定的线性约束下, L1 距离的最小值是在某个单一的维度上取到的。在高维的情形下,这个最小值不一定是取在某个单一的维度上,但是差不多一定是集中在很少的几个维度上。这就是「稀疏重建」这件事情的的理论基础。

稀疏重建的意思是说,假定我们知道有一个高维信号中有很大一部分维度上的值是零(但是并不知道具体哪些是零),这种性质就称为「稀疏的」,我们需要通过关于这个信号的一些线性条件来重构它。而上述性质就告诉我们,只要去寻找满足线性条件约束的 L1 度量的最小值,这个解多半会集中在很少几个维度上,剩下很大一部分维度上就自然是零,这就实现了我们所要求的目标。由于自然界中很大一部分信息都可以在某种意义上看做是稀疏的,这一理论就显得特别有价值。

关于 L1 度量空间有一些有趣的数学问题,比如:在 n 维空间里,最多能有多少个点的 L1 距离两两相等?容易看出至少可以有 2n 个,比如取所有坐标形如 (0,0,…,±1,…,0,0) 的点即可。但是这是不是最优情形呢?目前还没有人知道。与此相对的,如果是在常规的 L2 度量(即欧氏距离)空间下,这问题的解显然是 n+1。

与 L1 距离相对应的(确切说来是相对偶的)是所谓 L∞ 距离。在平面上,它不是定义为横纵两个方向上的差距之和,而是两个差距中较大的一个。在这种距离下的「圆」也是正方形,不过方向不同。

L1 度量空间所具有的性质,L∞ 度量空间大多以另一种形式也具备。只不过由于种种原因,它的应用并不如前者那么广泛,至少目前看来是如此。