高斯判别分析模型的英文为The Gaussian Discriminant Analysis model.
看下面这组数据,如果按照逻辑回归来分离的话,很可能得到的是这样的一条直线.
生成学习算法分布多两类数据建立模型,然后根据两个模型的概率通过高斯分布计算出,如果说我们也来画一条线的话,应该是这样:
假设y属于伯努利分布,而y的每个类别都属于高斯分布,即
写成概率的形式:
使用最大似然法,来确定参数:
得到高斯分布的参数为:
GDA vs 逻辑回归
如果p(x|y)是一个多维的高斯分布,那么p(y|x)可以推出一个logistic函数
反之则不一定正确,p(y|x)是一个logistic函数并不能推出p(x|y)服从高斯分布.这说明GDA比logistic回归做了更强的模型假设.
如果p(x|y)真的服从或者趋近于服从高斯分布,则GDA比logistic回归效率高.
当训练样本很大时,严格意义上来说并没有比GDA更好的算法(不管预测的多么精确).
事实证明即使样本数量很小,GDA相对logisic都是一个更好的算法.
但是,logistic回归做了更弱的假设,相对于不正确的模型假设,具有更好的鲁棒性(robust)