频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值.
贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布.
我们以一个小实验来开启频率学派与贝叶斯学派的讨论:
一个抛硬币实验,小明抛了100次后,发现20次正面朝上,80次反面朝上,问这枚硬币正面朝上的概率是多少?
频率学派与最大似然估计(MLE)
我相信初中生都可以解决上述抛硬币的问题,正面朝上的概率为:
这就是频率学派的思想,我们认为硬币正面朝上的概率是客观存在,不会改变,而我们现在求出了这个值.
当然,我们的例子太过简单,以至于一眼就能看出答案,如果模型很复杂的话,就需要用极大似然法来估计模型的参数,它基于一个最基本的理论概率最大的事件,最可能发生:
其中取对数是防止连乘导致结果过小,导致数值下溢.值的注意的是,表示参数是一个待估参数(是固定的,只是当前未知),而表示参数是随机变量,取值有一定概率.
对于抛硬币的例子,既然20次正面朝上,80次反面朝上的事实已经发生了,那么发生这种情况的概率就应该是最大的,设:
极大化已经发生的事件概率:
对求导,并令导数为0可求出:
贝叶斯学派与最大后验估计(MAP)
如果把抛硬币的实验改成抛5次得到5次正面,这时使用最大似然估计你会得出正面向上的概率为100%的荒谬结论,这显然不可信,因为"经验"告诉我们硬币正面朝上的概率不会是100%,有没有什么办法让"经验"帮助我们做概率估计呢?这就要讲到贝叶斯学派.
贝叶斯学派认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。
生活中大部分硬币都是均匀的,所以我们认为硬币是均匀的可能性比较大.即:硬币正面朝上的概率为0.5的概率为0.9,正面朝上的概率是0.4的概率是0.05,正面朝上的概率是0.6的概率是0.05.这个根据经验得来的概率称作先验概率.先验概率的概率分布为先验分布.
随着实验的进行,小明发现抛了100次后,居然只有20次是正面朝上,小明开始怀疑这枚硬币究竟是不是均匀的,随即小明根据实验修正先验分布,这个过程叫似然.似然后得到的概率为后验概率.似然后的概率分布为后验分布.
先验分布 + 数据(似然)= 后验分布
最大后验估计会极大化后验概率以估计参数:
上式中,因为X已经发生了,所以相当于常数,所以极大化过程中可以省略.
对于抛硬币实验我们假设先验分布服从Beta分布,后面会讲解Beta分布,他是概率的概率分布.
每次抛硬币服从二项分布:
那么,后验概率为:
令导数为0,求解为:
这里看以看出,MLE与MAP的不同之处在于,MAP的结果多了一些先验分布的参数。
补充知识: Beta分布
最大后验估计需要提供一个先验分布,而先验分布是概率的概率分布.
Beta分布由两个参数决定:
其中B函数是一个标准化函数,它只是为了使得这个分布的概率密度积分等于1才加上的。
Beta分布的图像可谓百变星君:
正是因为Beta分布的这个特性使它非常适合做先验分布.举个例子:硬币正面朝上概率大的时候取图中蓝色的分布,硬币均匀取图中紫色的分布,硬币正面朝上概率低取图中橙色的分布.
Beta分布还有一个重要的特性就是它与二项分布共轭先验,所谓共轭先验就是先验分布是beta分布,而后验分布同样是beta分布。这个特性很重要因为我们每次使用数据修正先验分布后,得到的后验分布会作为下次的先验分布.
证明很简单:
令,可得:
补充知识: Dirichlet 分布
上面介绍了Beta分布,它是二项分布的共轭先验,那么如果我们掷的不是硬币是筛子呢?
将二项分布推广到多项分布:
多项分布的共轭先验为Dirichlet分布:
参考:
https://www.zhihu.com/question/30269898
https://www.cnblogs.com/sylvanas2012/p/5058065.html