最大似然法与最小二乘法

最大似然法

最大似然法是通过数据确定模型参数的一种方法,我们假设模型的参数为 w .那么有:
f(x_1,x_2,...|w) = f(x_1|w) * f(x_2|w)*...

假设模型是最优的,那么这个概率一定比其他模型大,也就是最优的模型这个概率是最大的.

由于数据是已知的 w 未知,所以
L(w) = f(x_1,x_2|w) = \prod_{i=1}^n f(x_i|w)

为了方便后续计算我们将等式两边取对数:
l(w) = log L(w)

接下来我们最大化这个概率就是模型的参数.

\hat{w} = argmax\; l(w)

最小二乘法

首先假设线性回归模型具有如下形式:

f(\mathbf x) = \sum_{j=1}^{d} x_j w_j + \epsilon = \mathbf x \mathbf w^\intercal + \epsilon
其中 \mathbf x \in \mathbb R^{1 \times d},\mathbf w \in \mathbb R^{1 \times d} ,误差 \epsilon \in \mathbb R

当前已知 \mathbf X=(\mathbf x_1 \cdots \mathbf x_n)^\intercal \in \mathbb R^{n \times d},\mathbf y \in \mathbb R^{n \times 1} ,怎样求 \mathbf w 呢?

假设 \epsilon_i \sim \mathcal{N}(0, \sigma^2) ,也就是说 \mathbf y_i \sim \mathcal{N}(\mathbf x_i \mathbf w^\intercal, \sigma^2) ,那么用最大似然估计推导:

\begin{align*} arg\;max_{\mathbf w} L(\mathbf w) & = \ln {\prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2})\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - n \ln \sigma \sqrt{2\pi} \end{align*}

arg\;min_{\mathbf w} f(\mathbf w) = \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2= {\left\lVert{\mathbf y - \mathbf X \mathbf w^\intercal}\right\rVert}^2
这不就是最小二乘么。

最小二乘法的集合解释:

image

如图,如果模型与所有数据的误差(绿色线最短)最小,那么模型是最好的.

posted @ 2018/07/11 16:30:45