[译] 信息价值的测量

原文 by John McCarthy, Proc Natl Acad Sci (PNAS). 1956 Sep; 42(9): 654–655.

引言

我们对于未来事件的知识可以用一组概率集合的形式表达 p_1, p_2, \cdots, p_n 。例如,我们可能知道明天天气是下雨,下雪和晴天的概率各是 \frac{3}{8}, \frac{1}{8}, \frac{1}{2} 。在通信理论中我们的兴趣只在于作为消息编码载体的各种事件。就这个目的而言,香农熵 -\sum p_i \log p_i 是不确定性的合适测度,函数 A\sum p_i \log p_i+B 也是这条信息的价值在给定概率下的合适测度。在我们的天气的例子中,我们不仅关心哪个事件会发生,而且更关心到底是不是晴天,因为不论下雨、下雪,反正是坏天气。在这篇文章中我们证明了一组概率的任意凸函数 都可以作为信息价值的合适测度。并且两个函数在是否合适的意义上是等价的,当且仅当他们相差一个线性函数。

继续阅读“[译] 信息价值的测量”

如何治疗过分自信

As the limiting expectation \mathbb{E}_{T \sim MT(\lambda, \mathcal{D}_{1:N})}[p_T(y|x,\mathcal{D}_{1:N})] does not depend on the number of trees M, we would not expect to see overfitting behavior as M increases. Note that the averaging procedure \hat{y} = \frac{1}{M}\sum_{m=1}^M[p_{T_m}(y|x,\mathcal{D}_{1:N})] is ensemble model combination and not Bayesian model averaging.

——B. Lakshminarayanan et al, NIPS 2014

从巴厘回来后一直忙着做文书工作(paperwork)无暇读论文,明日又需去马来西亚赶集。夹杂在从过去和未来迎面席卷的对庸碌生活的恐惧中间,今天终于对这篇可能上个月就打印出来的文章做了一点微小的理解。

这句话逻辑清楚,信息含量拔群。然而在只能意会“集聚模型组合”和不知道“贝叶斯模型平均(BMA)”为何物的情况下,我并没有马上看懂。所以去查了JA Hoeting的工作,感觉发现了新大陆。

BMA指出,我们在回归建模的时候总是费尽心机用什么OLS啊,BIC啊这种求解最优化的方法确定一个唯一的模型M,并且坚信了这个模型就是最好的。然而,如果我们把眼光放开阔些,我们就有可能面临这样一种危险:那就是,可能的模型集合{M}很“平坦”,而有相当多的模型M’,虽然M’略逊于M,但是M’的可能性,或者{M’}的可能性,要远远高于M。所以,基于M的统计推断都不怎么可靠。一句话,我们对于模型M过于自信了。

打比方,某很会考试的哥们,某学期已经出了三门课的成绩:99,99,99。这当然很impressive,但是如果你按照最优的模型,推断他下若干门课的成绩,应该还是99,99…这就显得比较naive。然而机智的我却推断他之后的成绩可能是90,或者90-95之间。因为99,究其本身,就是个小概率事件。况且那种“我觉得90分很优秀了呀,60分就及格了呢,要留10分怕你骄傲”的老师,总会遇到的。既然我们根据已有信息,仅能推断此君很优秀,为什么不按更大可能性的90-95估计呢?

所以BMA考虑了这样一种治疗过分自信的方法,就是在所有模型中(或者至少 top 5中),按照其为真实世界的那种运行方式的可能性的大小,把各自的回归结果加权平均。因为因变量后验概率的分布可表示为 p(y|\mathcal{D}) =\sum_{k=1}^K p(y|\mathcal{D}, M_k) p(M_k|\mathcal{D}),欲知模型 M_k的后验概率p(M_k|\mathcal{D}),只需要通过数值方法对 M_k的未知参数进行“积分”求得 p(\mathcal{D}|M_k),再套贝叶斯公式就可以了。

其实这件很平凡的事情依然能使人惊觉的原因大抵在于我(或许大部分同侪亦然)都不是统计学科班出生,已经习惯了在自己的领域“搭积木”一样的玩耍,对于积木的内部质料既不懂,也不关心。所以常常觉得自己的研究方法是科学严谨的,无懈可击的。然而在数学家看来,可能这件严谨的外套,满是窟窿。

谈论概率的时候,你信仰什么

这个世界上有很多难以回答的问题:“先有鸡还是先有蛋?”,“掉在水里先救谁?”,“人死后会不会有灵魂存在”……这些问题有的构成悖论,任何一种简单地回答都与某个同时被认为正确的命题相矛盾;有的只涉及信仰,或者说不同的回答在所关注的内生变量内全部自洽了。无论如何,如果想进一步讨论这类问题,也就是对于问题的本身还要再说些什么,一种有效的方法是拷问其中的概念。例如,什么是鸡?什么是蛋?什么是“救”?什么是“灵魂”。如果承认在进化的连续体中存在某物种的绝对界限,并且以某种突变或者特征作为标志,那么只需要考察这种突变是发生在卵的孵化阶段还是孵化完成后的阶段就很容易回答“先有鸡还是先有蛋”这个问题了。 继续阅读“谈论概率的时候,你信仰什么”