我们来看这样一组数据
如果用线性回归的话,可能找到的线性方程式这样的:
这显然不能准确的描述数据的特征.
局部加权回归可以解决上述问题,核心思想是只使用预测点附近的数据进行建模,这样的话模型可以很好的表达曲线上每一处的特性.
在线性回归中我们会最小化系统的误差
最后可以得到线性方程的参数:
如果你对线性回归不了解的话,可以看我的另一篇文章线性回归.
在局部加权回归中我们只关心处理点附近的数据,所以在线性回归的基础上加一个参数
其中为权值:
的方程式这个样子的:
离x越近的地方权值会越大,离x越远的地方权值会越小.这样我们就通过权值来选取到x附近的数据.决定权值函数开口的大小.权值函数与正太分布没有关系,只是样子像正太分布而已,它只是一个指数函数.你也可以换成其他的函数,不过普遍认为指数函数比较合理.