如何治疗过分自信

As the limiting expectation \mathbb{E}_{T \sim MT(\lambda, \mathcal{D}_{1:N})}[p_T(y|x,\mathcal{D}_{1:N})] does not depend on the number of trees M, we would not expect to see overfitting behavior as M increases. Note that the averaging procedure \hat{y} = \frac{1}{M}\sum_{m=1}^M[p_{T_m}(y|x,\mathcal{D}_{1:N})] is ensemble model combination and not Bayesian model averaging.

——B. Lakshminarayanan et al, NIPS 2014

从巴厘回来后一直忙着做文书工作(paperwork)无暇读论文,明日又需去马来西亚赶集。夹杂在从过去和未来迎面席卷的对庸碌生活的恐惧中间,今天终于对这篇可能上个月就打印出来的文章做了一点微小的理解。

这句话逻辑清楚,信息含量拔群。然而在只能意会“集聚模型组合”和不知道“贝叶斯模型平均(BMA)”为何物的情况下,我并没有马上看懂。所以去查了JA Hoeting的工作,感觉发现了新大陆。

BMA指出,我们在回归建模的时候总是费尽心机用什么OLS啊,BIC啊这种求解最优化的方法确定一个唯一的模型M,并且坚信了这个模型就是最好的。然而,如果我们把眼光放开阔些,我们就有可能面临这样一种危险:那就是,可能的模型集合{M}很“平坦”,而有相当多的模型M’,虽然M’略逊于M,但是M’的可能性,或者{M’}的可能性,要远远高于M。所以,基于M的统计推断都不怎么可靠。一句话,我们对于模型M过于自信了。

打比方,某很会考试的哥们,某学期已经出了三门课的成绩:99,99,99。这当然很impressive,但是如果你按照最优的模型,推断他下若干门课的成绩,应该还是99,99…这就显得比较naive。然而机智的我却推断他之后的成绩可能是90,或者90-95之间。因为99,究其本身,就是个小概率事件。况且那种“我觉得90分很优秀了呀,60分就及格了呢,要留10分怕你骄傲”的老师,总会遇到的。既然我们根据已有信息,仅能推断此君很优秀,为什么不按更大可能性的90-95估计呢?

所以BMA考虑了这样一种治疗过分自信的方法,就是在所有模型中(或者至少 top 5中),按照其为真实世界的那种运行方式的可能性的大小,把各自的回归结果加权平均。因为因变量后验概率的分布可表示为 p(y|\mathcal{D}) =\sum_{k=1}^K p(y|\mathcal{D}, M_k) p(M_k|\mathcal{D}),欲知模型 M_k的后验概率p(M_k|\mathcal{D}),只需要通过数值方法对 M_k的未知参数进行“积分”求得 p(\mathcal{D}|M_k),再套贝叶斯公式就可以了。

其实这件很平凡的事情依然能使人惊觉的原因大抵在于我(或许大部分同侪亦然)都不是统计学科班出生,已经习惯了在自己的领域“搭积木”一样的玩耍,对于积木的内部质料既不懂,也不关心。所以常常觉得自己的研究方法是科学严谨的,无懈可击的。然而在数学家看来,可能这件严谨的外套,满是窟窿。

发表评论

电子邮件地址不会被公开。 必填项已用*标注