【算法】局部加权回归（Lowess）

文章目录

一、简介

1.1 预测问题

对于预测问题，回归中最简单的线性回归，是以线性的方法拟合出数据的趋势。但是对于有周期性，波动性的数据，并不能简单以线性的方式拟合，否则模型会偏差较大，而局部加权回归（lowess）能较好的处理这种问题。可以拟合出一条符合整体趋势的线，进而做预测。

同时，局部加权回归（lowess）也能较好的解决平滑问题。在做数据平滑的时候，会有遇到有趋势或者季节性的数据，对于这样的数据，我们不能使用简单的均值正负3倍标准差以外做异常值剔除，需要考虑到趋势性等条件。使用局部加权回归，可以拟合一条趋势线，将该线作为基线，偏离基线距离较远的则是真正的异常值点。
实际上，局部加权回归（Lowess）主要还是处理平滑问题的多，因为预测问题，可以有更多模型做的更精确。但就平滑来说，Lowess很直观而且很有说服力。

二、算法讲解

2.1 算法思想

局部加权回归（Lowess）的大致思路是：以一个点 $x x 为中心，向前后截取一段长度为 f r a c frac 的数据，对于该段数据用权值函数 w w 做一个加权的线性回归，记 ( x , y ^ ) (x,hat{y})$

2.2 参数讲解

在这个思路中，能提取出的可调参数则是：
1.长度 $f r a c frac ，应该截取多长的作为局部处理， f r a c frac 为原数据量的比例； 2.权值函数 w w ，使用什么样的权值函数 w w 合适； 3.迭代次数 i t it ，在进行一次局部回归后，是否需要迭代，再次做回归； 4. d e l t a delta 回归间隔，是否真的每个点都需要算一次加权回归，能否隔 d e l t a delta 距离算一次，中间没算的用插值替换即可。$

在了解了算法算法的大致思想和可调参数以后，你可以马上上手使用statsmodels.api.nonparametric.lowess了。使用方法如下：

import statsmodels.api as sm
lowess = sm.nonparametric.lowess
result = lowess(y, x, frac=0.2, it=3, delta=0.0)

但是，在statsmodels中，你会发现：1、权值w函数你是不可调的；2、在用了 $之后，插值函数你是不可调的。总之就是，黑盒子，很多你都不可调的。而且它还有一个非常严重的问题，具体可看本文3.3效果对比。接下来就是看相关文档，了解思路，之后，你可以自己写一个lowess，而且速度不会慢。$

相关文档，statsmodels就给出了比较权威的参考：《Cleveland, W.S. (1979) “Robust Locally Weighted Regression and Smoothing Scatterplots”. Journal of the American Statistical Association 74 (368): 829-836.》。
文章是《鲁棒性的加权回归》，即原始加权基础上迭代，增加鲁棒性。网上还有一些其他的lowess讲解，我看了，和这个不太一样，可以选择性阅读。