谈论概率的时候,你信仰什么

这个世界上有很多难以回答的问题:“先有鸡还是先有蛋?”,“掉在水里先救谁?”,“人死后会不会有灵魂存在”……这些问题有的构成悖论,任何一种简单地回答都与某个同时被认为正确的命题相矛盾;有的只涉及信仰,或者说不同的回答在所关注的内生变量内全部自洽了。无论如何,如果想进一步讨论这类问题,也就是对于问题的本身还要再说些什么,一种有效的方法是拷问其中的概念。例如,什么是鸡?什么是蛋?什么是“救”?什么是“灵魂”。如果承认在进化的连续体中存在某物种的绝对界限,并且以某种突变或者特征作为标志,那么只需要考察这种突变是发生在卵的孵化阶段还是孵化完成后的阶段就很容易回答“先有鸡还是先有蛋”这个问题了。

但是,在谈论概率的时候,这种方法的使用就不是那么一帆风顺了。因为“概率是什么”也是一个很让人头疼的问题。数学哲学家专门搞了一个领域(Probability Theory)¹研究概率的解释。虽然在历史的长河中聪明绝顶的数学家们像绛珠仙草一样一茬茬长出来,并且提出了千奇百怪的概率解释,这些解释都或多或少的和我们观察到的世界和解了,并在某些理论或应用上获得了自己的一席之地。所以概率就像信仰,不同的人有不同的选择。但是在选择自己的信仰之前,往往全局性地了解一下它们的内容才好。

概率解释的两大分支是频率概率(Frequency Probability,又称物理概率、客观概率)和贝叶斯概率(Bayesian Probability,又称证据概率、主观概率)。频率概率下还有频率派、习性派;贝叶斯概率下还有古典派、主观派、知识演绎派和逻辑派。总之一团糟。Bishop对两者差别的概括²是:频率概率论者将概率看成真实存在的,而观察的结果作为可重复的“概率的实现(realization)”,存在概率指向结果的因果关系;而贝叶斯概率论者将概率看成是观察者对某不能确定的事件的结果发生的信心的度量(degree of belief),只有数据真实的,并不存在确定的概率。两者互掐的结果可能就是任何事情都有频率观点和贝叶斯观点。对统计量的估计有置信区间(confidence inteval),也有可信区间(credible interval),对参数的估计有回归方法也有条件概率的方法。下图概括了混乱的概率解释史中几个主要的观点(from Wikipedia)

22E73A93-07FD-4C20-A48E-722855EF16D4

我在学校时用过两本概率方面的教材,一本《概率与数理统计》,一本《经济数学基础:概率统计》,他们都不约而同的在“概率是什么”这个问题上简单粗暴地选择了频率论。老实说,概率统计几乎是我大学四年分数最低的一门课。很可能因为它我没能在大陆最顶尖的某所大学保上研,因此(此因果关系或许不存在),我并不很喜欢这个频率解释。主要原因应该有四点:

原因1:随机事件的三个性质基本在物理世界中不存在。

  • 例如抛硬币,如果抛第二次的时候硬币滚不见了,实验就没法重复进行下去。重复性为了应对这种挑战,暧昧的使用了“可以或原则上可以”的表述。然而原则上什么实验不能重复进行呢。
  • 实验之前能明确一切可能出现的基本结果也显得太过理想。因为限于人类知识的局限,未被观察到得结果往往无法明确。例如抛硬币,如果抛出去之后硬币爆炸了呢?虽然我们从来没有观察到这个现象,但抛出竖立的硬币是观察到的。然而由于这种结果十分稀罕,仍旧被从可能出现的结果中排除掉了。
  • 随机性的挑战则来自于我们迫于现实需要,将大量的确定事件看做随机事件。例如抛硬币,如果我们相信某些古典的物理理论,在抛出的一瞬间初始环境和空气动力学因素就已经决定了观察结果,这样寻找随机性开始和完结的时间点都难以决定。

原因2:即使创造出一个理想的小环境,随机性的边界还是难以决定。例如A写下一个自然数,B猜测此数的奇偶性。这件事是可重复明确的,然而从何时开始出现的结果是不确定的呢?一种可能的反思是,在A和B都没有偏好的情况下,在A决定了写下哪个数和B决定了猜测奇还是偶的时候,结果就确定下来了。这个时点可能正在观察结果的动作发生时,但只要我们对A或B稍多些了解,这个时点就在我们观察结果的动作发生前。也就是说,随机性至多在随机事件发生的那一时间结束了,或者很可能在那之前就已经结束了。

原因3:频率稳定性来源于物理习性论(propensity),大数定律的正确性并没有使得我们能够对频率概率的具体数值一口咬定,反而仍然需要依靠知识和经验(在抛硬币的实验中就是硬币的匀质假设)。因为观察行为物理属性决定了其只能进行有限多次。例如我在观察历史上的抛硬币实验时,就完全看不出频率收敛在0.5,而总觉得收敛在0.4995。之所以布丰抛来抛去总是路易十六的头朝上比较多,罗曼诺夫斯基却是列宁的头朝下比较多也不是什么随机数据。是因为18世纪法国的水压造币技术尚不足以造出匀质的硬币(今天看到的很多18世纪法国硬币背面都还有减重痕),而CCCP那单薄的国徽用料太少。

b03533fa828ba61ec94fad874134970a314e59f0

原因4:在置信推断(fiducial inference)中频率解释有不可调和的逻辑困难。按照概率的频率解释,确定参数不是随机变量,自然就没有分布可言。但如果我们想自然地提出此参数更可能是A还是B,或者更可能属于[a, b]还是[c, d]这类问题时,没有分布可言的回答就如在提出蜻蜓和人的眼睛谁更大时得到单眼和复眼无法比较大小的回答一样不太令人满意。

置信分布是Ronald Fisher在研究确定参数的先验分布(prior distribution)时提出的一种理论。我们看一个例子:

设在[0, ω]上的均匀分布产生了n个独立的观测结果,其中最大值为X。现已知X,求ω的概率分布。

思路:因为X是ω的充分统计量,即使只记录X而忘掉其他的(n-1)个观测结果,他们也是均匀分布在[0, X]上的,这个陈述并不依赖于ω的值。于是X的累积分布函数就可以写成

P(X<x) = (x/ω)^n  (x<ω);  所以

P(X>x) = 1-(x/ω)^n;   如果将x替换成ω/a,a>1则

P(X>ω/a) = 1-(1/a)^n;   也即

P(ω<aX) = 1-(1/a)^n;

当X确定时,上式就可以看成是ω的累积分布函数。显然P(ω)是正则的并且很好地符合我们的直觉。如果这n个观测结果是{2,2.5,4},那么显然ω=5的概率比ω=100的概率要大。

基于以上四点原因,可以说我是一个完全的“贝叶斯粉”,虽然频率概率论和贝叶斯概率论各自基于Kolmogorov公理和Cox公理都推导出了一套好用的工具。

当一个贝叶斯粉的好处之一是可以到处和稀泥。因为涉及到知识论和主观性的问题,每个人的先验可能不同而都能够自圆其说。这就给同一个问题提供了多种答案的可能性,并且在计算概率时明确未知的界限,在不知道的时候理直气壮地不知道。考虑如下例子

设有A,B两人。A抛硬币,出现正面记为1,反面记为2。B抛骰子,记录点数。现有一个观测到的序列{Ri},如果知道一直都是一个人在抛,A在抛硬币或B在抛骰子的概率是多少呢?

思路:显然一旦我们在序列{Ri}中观测到{3,4,5,6}就可以立即断言是B在抛骰子,而即便{Ri}只是{1,2}的序列,随着{Ri}长度的增加我们对是A在抛硬币的信心也在上升。使用条件概率,很容易知道

P(1)=P(2)=1/6 + P(A)/3

根据前述置信分布的概念,当{Ri}是长度为n的{1,2}序列时,

P(A|{Ri})=1×P(A)/P({Ri})= P(A)·(3/(1+2P(A)))^n;  前方高能,excited!!!

P(A|{Ri})还是P(A)的函数。换句话说,虽然这个信心在上升,但如果不知道是A在抛的概率的大小,观测到了{Ri}仍旧无法知道是A在抛的概率的大小。

这个问题的另一个表述是,对于谁来抛有两种习性,你可以选择相信任何一个。(α)抛出的数来自A或者B的可能性相等,(β)两人(作为前因)来抛的可能性相等。这取决于你的先验知识,如果你对A和B一无所知,那就蒙吧。反正作为信心的概率蒙错了也是可以修正的。(汉语博大精深,我冥冥中似乎感受到“蒙”和“猜”的语义差别——蒙是毫无依据的猜,猜是合情合理的蒙)

Reference:
1. https://en.wikipedia.org/wiki/Probability_theory
2.
Christopher M Bishop’s Book: Pattern Recognition And Machine Learning


 找出一个问题的100种等价形式往往使我们更深刻的理解这个问题。其实上面讲的例子就是隐马尔科夫过程,但我准备先抛弃那套语言,毕竟我们谈的是信仰问题。

假设有两个赌博机,按照上述例子的方式产生一个数(?)。但它在红幕之后,所以你并不知道数是硬币产生的还是骰子产生的。两个赌博机的生成机制并不相同,一个等概率的从两个箱子里蹦出一个硬币或者骰子,一个是每次从一个装着相等数目的硬币和骰子的大箱子中蹦出。在不知道机器内部机制的时候,你愿意赌么 🙂

7257B99A-5215-40A3-9844-AFA38634360D              E85E049D-AD3F-4D1B-8FD8-3BA16F411EA6

发表评论

电子邮件地址不会被公开。 必填项已用*标注