↖  理解计算:从根号2到AlphaGo -18: 第七季 无处不在的贝叶斯-人物篇..


-loading- -loading- -loading-

2019-10-11 , 212 , 0 , 144

听音频 🔊 . 看视频 🎦

引子

贝叶斯(Bayes)这个词语可能是当前统计学或者机器学习领域出现频率最高词语,但是有关贝叶斯本人以及他工作的初始资料很少,甚至连他的确切出生日期都没有,只留下了三封信和一篇笔记包含了一些学术梗概,同时他在他生活的时代几乎没有人关注,直到20世纪中叶他才成为统计史上的代表人物。

现在各种以贝叶斯命名的模型或算法层出不穷。

本文试图阐述贝叶斯这个仅有5个字母却包含了当前机器学习半壁江山的核心思想,这涉及到回顾几乎整个统计或者概率发展的历史,由于内容繁多,本季分为上下两篇,上篇主要介绍与贝叶斯相关的历史人物的贡献以及贝叶斯定理的相关基础概念,简称人物篇。

下篇则主要介绍以某些以贝叶斯命名的模型的基本原理及应用,简称模型篇。


1.贝叶斯定理的出现

1763年12月23日,理查德·普莱斯( Richard Price) 在伦敦皇家学会会议上宣读了托马斯·贝叶斯( Thomas Bayes )的遗世之作—《An essay towards solving a problem in the doctrine of chances》[1]( 机会学说中一个问题的解) , 从此贝叶斯定理诞生于世,在发表后很长时间内没有引起很大的反响。

尽管贝叶斯的名气现在看来如日中天,但是在他那个年代,普莱斯才是当之无愧的明星, 他与本杰明·富兰克林、托马斯·杰斐逊、约翰·亚当斯经常联系,并在美国建国过程中发挥了积极作用。

同时,关于英国人口的论文直接影响了托马斯·马尔萨斯提出他的人口几何级数增长理论。普莱斯早年曾与贝叶斯相识,贝叶斯去世前将他的笔记和一些未发表论文交给了普莱斯(这不仅是他做的最正确的决定之一,同时我们也将会看到这充分体现了贝叶斯定理所展现的主观信念),他坚信普莱斯的品德保证了其不会将这个成果据为己有。


两年之后,普莱斯把经过补充完善的论文提交给皇家学会。普莱斯于1791年去世,他的葬礼是由氧气的发现者约瑟夫·普里斯特利主持的,托马斯·贝叶斯也葬在那里,他们的坟墓几乎挨在一起[2]。

可以肯定的说如果没有普莱斯的贡献,从机会学说本身来看,贝叶斯定理一定会以其他人命名。

贝叶斯定理出现这件事本身证明了贝叶斯定理的强大之处。


2 .机会与概率

概率是一个事件发生的可能性大小的一种数量指标,通常这个指标介于0-1之间。

根据事件发生情况的不同,概率的定义也有不同。

事件分为可重复性事件和一次性事件。可重复性事件是指理论上能够在某种相同的条件下无限重复的。例如,我们可以假设掷骰子,从理论上看可以无限的。一次性事件一般指与时间相关的一个事件发生的情况,例如2019年12月30日前完成这个系列的撰写工作的概率。

由于时间不可逆,这是一个一次性事件的例子,只是对《复仇者联盟》来说,与时间相关的事件似乎成了一种可重复事件。


关于能够重复的事件的概率,称为为客观规律。而一次性事件的概率称为主观概率,这种解释稍有些令人迷惑。客观概率不随人的意志转移,它依赖一些公认的运算法则,几乎反映了世界的一种客观性。

而主观概率则取决于人的主观看法。例如,不同的人对于某件事有难度的事件是否能够成功,他们的看法决定了事件在发生的可能性。


决定客观概率的方法主要有两种,一种是在大量重复事件中寻找事件出现的频率,例如,每100万个人当中,不幸患上某种疾病的概率就是客观概率。

尽管重复事件可能受到环境的影响,但这种大量重复事件的统计方法也不同,一般而言,获得的重复事件越多,事件发生的概率越准确。这种方法客观性是不容置疑的,该方法定义的概率被称为统计概率,统计的意思是从数据中推断出一些最可能出现的一些信息。

-loading- -loading--loading-


另一种形式则是我们在重复的事件发生前,就已经知道结果的可能性,就像掷骰子一样,我们几乎天然的认为每一面出现的概率是等可能的,这种等可能性并不来自重复实验,而是来源于骰子物理结构上的对称性,这种情况下定义的概率则被称为古典概率,这很大程度上是因为,这种概率本身就来自于古代的赌博游戏中的骰子。


UfqiLong

实际上,要显示的区分主观概率和客观概率不必要的,在现代的概率论的体系下,并不对概率的具体含义进行说明,而只是定义出这些表示概率的量之间的运算所遵从的一些公理或规则。

将概率进行区分有助于我们下面的讨论,主观概率是我们本文所要讨论的核心,即贝叶斯学派的基础,而客观概率则是频率学派的天下。


概率确切的所说应该是古典的客观概率,起源于赌博游戏,现在的赌博游戏花样百出。

而在16世纪时,赌博主要依赖掷骰子所展示的随机性,因此参与者非常关心各种出现机会的大小。

全面阐述古典概率各种计算问题的人是卡登(Girolamo Cardano),这是我们的老朋友了,他不仅作为数学家设计了我们在前面描述的隐写术的最早方法卡登格子,更重要的是作为一个毕生研究赌博的伟大的赌徒,在他的著作《The Book of Games of Chance》中,对赌博进行了全面的讨论。

特别是他第一次明确了表明了骰子应该是绝对对称的,按他的话来说,即“诚实的(Honest)”,并且推导出了最早的组合公式,即从n个不同的物体中,选择k个时,有多少种取法。作为一名资深赌徒,他的名言是:“赢得赌博的最好的办法就是完全不参加赌博[7]”。


在那个时候,大家关注一个十分有趣的 “分赌本“问题[3,4]:A和B两人赌博,各出赌金a元,每局每个人获胜的概率都是1/2,他们规定,谁先胜S局,即赢得全部押注的金额2a元。

但是由于不可抗拒的原因,在A赢S1局,B赢S2局的时候,这个赌博停止(警察来了!)此时,押注金额2a应改如何分配给A和B才算公平?


一种简单粗暴的解决方案是,由于谁都没有赢S局,因此,赌博失效,各自取回赌本。

这不算一个公平的方案,因为有可能A已经还剩1局就赢S局,而B才赢了1局。

Cardano注意到在这种情况下, 押注金的分配比例应该是S1和S2与S的差距相关,而不是简单的S1和S2本身。

这个问题之所以重要,主要是它的解决明确了概率与期望的关系,即如果我们能在当前情况下,估计出A最终获胜的概率Pa以及B获胜的概率1-Pa。

那么赌金应该按照PA:PB之比分配。

业余数学家费马(Pierre de Fermat)在这个问题中定义了赌博的值(Value)的概念,即赌注乘以概率。

伟大的惠更斯(Christiaan Huyens)在他的《机遇的规律》一文中,将值(Value)改为了期望(Expectation), 从此这个概念流芳百世。


作为当时几乎与牛顿齐名的科学家,他还撰写了《光论》这本书,将光看作是波一样东西,开创了光的波动学说。

而牛顿则略显犹豫的以他那更著名的著作《光学》选择站在了光的粒子说一边。

从此,关于光是波还是粒子的讨论,以及由此产生的量子理论的发展,完全颠覆了整个世界。


3.伯努利与二项分布

至惠更斯时为止,关于概率的所有内容只是围绕着赌博中掷骰子的问题。

这种机遇博弈在概率论的产生过程中起到了重要作用。

也只有对于掷骰子这样简单问题的研究才能够为这门学科的建立提供一个宽松环境,一种看起来几乎无益的赌博活动有时起到异乎寻常的价值。

然而,一个相对完整的概率思想的建立,则落在了莱布尼茨坚定的支持者,雅各布伯努利(Jakob Bernoulli )身上。


雅各布去世时,他的那本不朽著作《推测术》还未出版。他深受惠更斯的影响,但是他做的更多,他明确指出了重复事件每次重复时的独立性,形成了伯努利概型的概念,特别是在这本书中,还特别讨论了关于概率论在社会到的和经济领域的应用,更提出了在在概率史上居于不朽地位的以其名字命名的大数定律——伯努利大数定律!

-loading- -loading--loading-


UfqiLong

我们已经在《多维的浪漫》中,见识了大数定理的威力。

雅各布将客观概率明确区分为可先验计算的概率(古典概率),和后验计算的概率(统计概率)。在他那个时代,牛顿力学达到了顶峰,机械决定论的观点贯穿于对于随机性本身的解释。

例如:尽管掷一个骰子出现某一个面的情况是随机的,这主要是因为我们掌握的信息不够多,若把一切有关条件,包括骰子的大小,质量分布,初始位置,掷的方向和力度全弄清楚了,结果应该是确定的。

这种机械决定论的观念是如此根深蒂固,以至于在200年后,当量子理论和相对论相继被提出后,随机性作为不容置疑的基本物理现象被很多反直觉的实验所验证时,伟大的爱因斯坦依然坚信“上帝是不掷骰子的。


以伯努利命名的分布,是研究一种最简单的事件的随机性而得名的。

若一次试验只有正例和反例两种可能结果,以随机变量表示就是事件X的结果只能取0或1,伯努利试验是只有两种可能结果的单次随机试验,最简单的伯努利试验就是抛硬币,抛一次(诚实的)硬币,正反面出现的概率均为p=0.5,出现正面(X=1)的分布是服从参数(概率)为0.5的伯努利分布,记做X∼Ber(θ= 0.5),若硬币有缺陷,抛一次硬币,正面出现的分布服从参数不等于0.5的伯努利分布,例如X∼Ber(θ=0.4)。

在这种最简单情况下,伯努利分布的参数θ本身就是一次实验中正面出现的概率P。


如果将抛(一次)硬币这个实验重复N次,每一次出现正面的概率都相同即等于P,那从整体上看,出现正面的次数,这里也用X表示,则X有0-N种情况,表示为X~Ber(N,θ=P),碰巧的是,这种0-N种情况的概率分布正好可以用二项式展开的牛顿公式表示,因此,后人把这个分布称为二项分布。

具体例子是,若一次实验正面概率为p=0.5,当N=3时的二项分布则仅有如下情况:

fig71.PNG


更进一步,伯努利在他的这本书中,证明了当N->∞时,频率X/N依概率收敛于p,接着伯努利试图解决一个思路相反的问题,即给定ε>0和c>0(ε很小,c很大),为使事件|X/N-p|≤ε的概率pε不小于c/(c+1),实验次数N至少要达到多少,这个问题也被称为二项概率逼近问题。


这种表达的一个直观解释说法是,当N为多少时,频率与概率足够接近。数学家狄莫弗求解问题的研究中,发现了一个在概率统计历史种的一个重要的里程碑式的结论-以他名字命名的中心极限定理。

由这个定理告诉我们,频率接近概率的精度,大致上与试验次数N的平方根成比例,而不是N本身,这个结论是人类认识自然的一个重大进展,√N这个量具有很多特殊重要的地位,现在这个量被标准差所取代,我们在第一季中,已经告诉大家如何求解的近似解,这种偶然性简直是写作的一种随机乐趣。


对二项概率分布的逼近是数理统计学历史上的重要工作,这项工作种对于未知概率的推导直接导致了贝叶斯推断思想的建立。

贝叶斯方法最初是为了解决二项概率分布的估计问题而提出的一种方法,这种估计问题在早期也被会成为逆概率。逆概率就是求概率问题的逆问题,具体含义是给定观察结果,问由此可以对概率P作何推断。

正概率,则是给定事件的概率P,由此求某种观察结果(其他相关事件)的概率。可以通俗的讲,正概率是原因推结果,是概率论。

而逆概率是由结果推原因,是数理统计[3]。而现在,这种思想已经成为整个统计学种贝叶斯学派的基本思想,在信息时代,这种思想也是机器学习算法中重要的研究领域。


美国加州洛杉矶Los Angeles城市风景-人文景观与自然风光和谐交融-8

+概率 +事件 +定理 +主观 +客观

本页Url

↖回首页 +当前续 +尾续 +修订 +评论✍️


👍12 仁智互见 👎1
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🔗 连载目录

    🤖 智能推荐

    + 柳谷书 柳谷书
    AddToFav   
    新闻 经典 官宣