频率学派与最大似然估计(MLE)

我相信初中生都可以解决上述抛硬币的问题,正面朝上的概率为:

这就是频率学派的思想,我们认为硬币正面朝上的概率是客观存在,不会改变,而我们现在求出了这个值.

当然,我们的例子太过简单,以至于一眼就能看出答案,如果模型很复杂的话,就需要用极大似然法来估计模型的参数,它基于一个最基本的理论概率最大的事件，最可能发生:

其中取对数是防止连乘导致结果过小,导致数值下溢.值的注意的是,表示参数是一个待估参数(是固定的，只是当前未知),而表示参数是随机变量,取值有一定概率.

对于抛硬币的例子,既然20次正面朝上,80次反面朝上的事实已经发生了,那么发生这种情况的概率就应该是最大的,设:

极大化已经发生的事件概率:

对求导,并令导数为0可求出:

贝叶斯学派与最大后验估计(MAP)

如果把抛硬币的实验改成抛5次得到5次正面,这时使用最大似然估计你会得出正面向上的概率为100%的荒谬结论,这显然不可信,因为"经验"告诉我们硬币正面朝上的概率不会是100%,有没有什么办法让"经验"帮助我们做概率估计呢?这就要讲到贝叶斯学派.

贝叶斯学派认为世界是不确定的，因获取的信息不同而异。假设对世界先有一个预先的估计，然后通过获取的信息来不断调整之前的预估计。他们不试图对事件本身进行建模，而是从旁观者的角度来说。因此对于同一个事件，不同的人掌握的先验不同的话，那么他们所认为的事件状态也会不同。

生活中大部分硬币都是均匀的,所以我们认为硬币是均匀的可能性比较大.即:硬币正面朝上的概率为0.5的概率为0.9,正面朝上的概率是0.4的概率是0.05,正面朝上的概率是0.6的概率是0.05.这个根据经验得来的概率称作先验概率.先验概率的概率分布为先验分布.

随着实验的进行,小明发现抛了100次后，居然只有20次是正面朝上,小明开始怀疑这枚硬币究竟是不是均匀的,随即小明根据实验修正先验分布,这个过程叫似然.似然后得到的概率为后验概率.似然后的概率分布为后验分布.

先验分布 + 数据（似然）= 后验分布

最大后验估计会极大化后验概率以估计参数:

上式中,因为X已经发生了,所以相当于常数,所以极大化过程中可以省略.

对于抛硬币实验我们假设先验分布服从Beta分布,后面会讲解Beta分布,他是概率的概率分布.

每次抛硬币服从二项分布:

那么，后验概率为：

令导数为0，求解为：

这里看以看出，MLE与MAP的不同之处在于，MAP的结果多了一些先验分布的参数。

最大后验估计需要提供一个先验分布,而先验分布是概率的概率分布.

Beta分布由两个参数决定:

其中B函数是一个标准化函数，它只是为了使得这个分布的概率密度积分等于1才加上的。

Beta分布的图像可谓百变星君:

正是因为Beta分布的这个特性使它非常适合做先验分布.举个例子:硬币正面朝上概率大的时候取图中蓝色的分布,硬币均匀取图中紫色的分布,硬币正面朝上概率低取图中橙色的分布.

Beta分布还有一个重要的特性就是它与二项分布共轭先验,所谓共轭先验就是先验分布是beta分布，而后验分布同样是beta分布。这个特性很重要因为我们每次使用数据修正先验分布后,得到的后验分布会作为下次的先验分布.

证明很简单:

令,可得:

上面介绍了Beta分布,它是二项分布的共轭先验,那么如果我们掷的不是硬币是筛子呢?

将二项分布推广到多项分布:

多项分布的共轭先验为Dirichlet分布:

参考:
https://www.zhihu.com/question/30269898
https://www.cnblogs.com/sylvanas2012/p/5058065.html