最大似然法
最大似然法是通过数据确定模型参数的一种方法,我们假设模型的参数为
.那么有:
%20%3D%20f(x_1%7Cw)%20*%20f(x_2%7Cw)*...)
假设模型是最优的,那么这个概率一定比其他模型大,也就是最优的模型这个概率是最大的.
由于数据是已知的
未知,所以
%20%3D%20f(x_1%2Cx_2%7Cw)%20%3D%20%5Cprod_%7Bi%3D1%7D%5En%20f(x_i%7Cw))
为了方便后续计算我们将等式两边取对数:
%20%3D%20log%20L(w))
接下来我们最大化这个概率就是模型的参数.
)
最小二乘法
首先假设线性回归模型具有如下形式:
%20%3D%20%5Csum_%7Bj%3D1%7D%5E%7Bd%7D%20x_j%20w_j%20%2B%20%5Cepsilon%20%3D%20%5Cmathbf%20x%20%5Cmathbf%20w%5E%5Cintercal%20%2B%20%5Cepsilon)
其中
,误差
。
当前已知
,怎样求
呢?
假设
,也就是说
,那么用最大似然估计推导:
%20%26%20%3D%20%5Cln%20%7B%5Cprod_%7Bi%3D1%7D%5En%20%5Cfrac%7B1%7D%7B%5Csigma%20%5Csqrt%7B2%5Cpi%7D%7D%20%5Cexp(-%5Cfrac%7B1%7D%7B2%7D(%5Cfrac%7B%5Cmathbf%20y_i%20-%20%5Cmathbf%20x_i%20%5Cmathbf%20w%5E%5Cintercal%7D%7B%5Csigma%7D)%5E2%7D)%5C%5C%0A%26%20%3D%20-%20%5Cfrac%7B1%7D%7B2%5Csigma%5E2%7D%20%5Csum_%7Bi%3D1%7D%5En(%5Cmathbf%20y_i%20-%20%5Cmathbf%20x_i%20%5Cmathbf%20w%5E%5Cintercal)%5E2%20-%20n%20%5Cln%20%5Csigma%20%5Csqrt%7B2%5Cpi%7D%20%5Cend%7Balign*%7D)
%20%3D%20%5Csum_%7Bi%3D1%7D%5En(%5Cmathbf%20y_i%20-%20%5Cmathbf%20x_i%20%5Cmathbf%20w%5E%5Cintercal)%5E2%3D%20%7B%5Cleft%5ClVert%7B%5Cmathbf%20y%20-%20%5Cmathbf%20X%20%5Cmathbf%20w%5E%5Cintercal%7D%5Cright%5CrVert%7D%5E2)
这不就是最小二乘么。
最小二乘法的集合解释:
如图,如果模型与所有数据的误差(绿色线最短)最小,那么模型是最好的.