理解最小二乘法(2)：多项式如何巧妙适应非线性问题的拟合

最编程 2024-02-06 12:00:54

...

一个复杂的多项式可以“过拟合”任意数据，言外之意是多项式函数可以接近于任何函数，这是什么道理呢？

泰勒公式

欲理解多项式函数的过拟合，必先理解泰勒公式。

泰勒公式是一种计算近似值的方法，它是一个用函数某点的信息描述在该点附近取值的公式。已知函数在某一点的各阶导数值的情况之下，泰勒公式可以用这些导数值做系数构建一个多项式来逼近函数在这一点的邻域中的值。

如果f(x)在x₀处具有任意阶导数，那么泰勒公式是这样的：

上式中的幂级数称为f(x)在x₀点的泰勒级数。（0的阶乘是1）

泰勒公式的应用

来看一个泰勒公式的应用。假设一个小偷盗取了一辆汽车，他在高速公路上沿着一个方向行驶，车辆的位移s是关于时间t的函数。警方接到报案后马上调取监控，得知在零点（t=0时刻）小偷距车辆丢失地点的位移是s₀。现在的时间是0:30，警方想要在前方设卡，从而能在凌晨1点拦住小偷，应该在哪里设卡呢？

我们知道车辆在0点时的位移是s₀，现在想要知道凌晨1点时车辆的位置：

可以直接使用泰勒公式：

泰勒公式可以无限展开，展开得越多，越逼近真实值，并且越到后面的项，对结果的影响越小，我们认为0和1非常接近，所以只展开到2阶导数：

这就是最终结果，在此处设卡最有可能在第一时间拦住小偷。

在0点处的泰勒展开

在使用泰勒公式时，经常取x₀=0。

f(x)=e^x是一个可以用泰勒公式展开的例子，下面是e^x在x₀=0处的泰勒展开：

当x=1时，还附带得到了e的解释：

我们使用一个很难处理的积分解释泰勒展开的意义，对正态分布进行积分：

常规的方法很难处理。现在，由于被积函数与e^x相似，我们又已经知道e^x的展开式，所以可以进行下面的变换：

将exp(-x²)左右两侧同时积分：

很容易计算右侧的每一项积分。

这个例子展示了幂级数展开的意义——把质的困难转化成量的复杂。展开前求解函数的值很困难，展开后是幂级数，虽然有很多很多项，但是每一项都是幂函数，都很容易求解，于是，只要对展开后的函数求和，就能得到展开前的函数的值。

为什么在0点处展开

当x₀=0时，可以极大地简化泰勒展开式。之前说泰勒公式是一个用函数某点的信息描述在该点附近取值的公式，一个函数中的某点如果距离0很远怎么办呢？实际上泰勒公式也能够逼近函数在距离0很远处的取值，只不过此时只展开到2阶导数是不够的，需要展开很多项，展开的越多，越能逼近该点。以标准正态分布函数f(x)=exp(-x²)为例，虽然它在二阶展开使与原函数相差较大，但是当展开到40阶时就已经非常接近原函数了。

多项式函数

理解了泰勒公式后，再回到问题的原点，看看多项式函数为什么可以接近于任何函数。

仍然以标准正态分布为例，它在x₀ = 0点处的10阶泰勒展开是：

如果将每一项中的xⁱ都看作一个维度，那么这个多项式函数可以写成多元线性回归的形式：

这就将一个一元的非线性问题转换成了多元的线性问题，从而利用最小二乘法求得模型参数。

下面的代码以ln(2x) + 2为原函数，生成40个在-1~1之间随机震荡的数据点，并使用线性回归和多项式回归拟合数据点：

  1 import numpy as np
  2 import matplotlib.pyplot as plt
  3
  4 def create_datas():
  5     '''
  6     生成10个待拟合的点
  7     :return: xs, ys
  8     '''
  9     xs = np.arange(0.1, 4, 0.1)
 10     # y = ln(2x) + noize,  -1 <= noize <= 1
 11     ys = np.array([np.log(x * 2) + 2 + np.random.uniform(-1, 1) for x in xs])
 12     return xs, ys
 13
 14 class Regression():
 15     ''' 回归类 '''
 16     def __init__(self, xs, ys):
 17         '''
 18         :param xs: 输入数据的特征集合
 19         :param ys: 输入数据的标签集合
 20         '''
 21         self.xs, self.ys = xs, ys
 22         self.theta = None # 模型参数
 23
 24     def train_datas(self, xs=None):
 25         '''
 26         重新构造训练样本的特征和标签
 27         :param xs: 输入数据的特征集合
 28         :return: 矩阵形式的训练样本特征和标签
 29         '''
 30         xs = self.xs if xs is None else xs
 31         X = self.train_datas_x(xs)
 32         Y = np.c_[ys] # 将ys转换为m行1列的矩阵
 33         return X, Y
 34
 35     def train_datas_x(self, xs):
 36         '''
 37         重新构造训练样本的特征
 38         :param xs: 输入数据的特征集合
 39         :return: 矩阵形式的训练样本特征
 40         '''
 41         m = len(xs)
 42         # 在第一列添加x0,x0=1,并将二维列表转换为矩阵
 43         X = np.mat(np.c_[np.ones(m), xs])
 44         return X
 45
 46     def fit(self):
 47         ''' 数据拟合 '''
 48         X, Y = self.train_datas()
 49         self.theta = (X.T * X).I * X.T * Y
 50
 51     def predict(self, xs):
 52         '''
 53         根据模型预测结果
 54         :param xs: 输入数据的特征集合
 55         :return: 预测结果
 56         '''
 57         X = self.train_datas(xs=xs)[0]
 58         return self.theta.T * X.T
 59
 60     def show(self):
 61         ''' 绘制拟合结果 '''
 62         plt.figure()
 63         plt.scatter(self.xs, self.ys, color='g', marker='.')  # 绘制数据点
 64         self.show_curve(plt) # 绘制函数曲线
 65         plt.xlabel('x')
 66         plt.ylabel('y')
 67         plt.axis('equal')
 68         plt.show()
 69
 70     def show_curve(self, plt):
 71         ''' 绘制函数曲线 '''
 72         pass
 73
 74     def global_fun(self):
 75         ''' 返回目标函数 '''
 76         gf = ['(' + str(t[0, 0]) + str(i) + ')x^' + str(i) for i, t in enumerate(self.theta)]
 77         return ' + '.join(gf)
 78
 79 class Linear(Regression):
 80     ''' 线性模型'''
 81     def show_curve(self, plt):
 82         '''
 83         绘制拟合结果
 84         :param plt: 输入数据的特征集合
 85         '''
 86         xx = [self.xs[0], self.xs[-1]]
 87         yy = self.predict(xx)
 88         plt.plot(xx, np.array(yy)[0])
 89
 90 class Multinomial(Regression):
 91     ''' 多项式回归模型 '''
 92     def __init__(self, xs, ys, n=3):
 93         '''
 94         :param xs: 输入数据的特征集合
 95         :param ys: 输入数据的标签集合
 96         :param n: 多项式的项数
 97         '''
 98         super().__init__(xs, ys)
 99         self.n = n
100
101     def train_datas_x(self, xs):
102         '''
103         重新构造训练样本的特征
104         :param xs: 输入数据的特征集合
105         :return: 矩阵形式的训练样本特征
106         '''
107         X = super().train_datas_x(xs)
108         for i in range(2, self.n + 1):
109             X = np.column_stack((X, np.c_[xs ** i])) # 构造样本的其他特征
110         return X
111
112     def show_curve(self, plt):
113         ''' 绘制函数曲线 '''
114         xx = np.linspace(self.xs[0], self.xs[-1], len(self.xs) * 20)
115         yy = self.predict(xx)
116         plt.plot(xx, np.array(yy)[0], '-')
117
118 if __name__ == '__main__':
119     xs, ys = create_datas()
120     linner = Linear(xs, ys)
121     linner.fit()
122     linner.show()
123     print(linner.global_fun())
124     multinomial_2 = Multinomial(xs, ys)
125     multinomial_2.fit()
126     multinomial_2.show()
127     print(multinomial_2.global_fun())
128     multinomial_5 = Multinomial(xs, ys, n=5)
129     multinomial_5.fit()
130     multinomial_5.show()
131     print(multinomial_5.global_fun())
132     multinomial_10 = Multinomial(xs, ys, n=10)
133     multinomial_10.fit()
134     multinomial_10.show()
135     print(multinomial_10.global_fun())

g(x) = (1.9182485999849650)x^0 + (0.59227212115542361)x^1

g(x) = (1.08878951445695080)x^0 + (1.93338103233342821)x^1 + (-0.432303546799236442)x^2 + (0.0271820476270291663)x^3

g(x) = (0.99251064852227410)x^0 + (1.76946274798467761)x^1 + (0.89953848546142062)x^2 + (-1.38687538315028963)x^3 + (0.51575236919912484)x^4 + (-0.061348884517762275)x^5

g(x) = (-5.0484331510002910)x^0 + (88.472819879506091)x^1 + (-415.806438224785442)x^2 + (972.95053791563963)x^3 + (-1289.27269594709044)x^4 + (1041.4736327892315)x^5 + (-530.97906652161346)x^6 + (171.517800309032227)x^7 + (-34.024266461432668)x^8 + (3.78050287127842039)x^9 + (-0.1801084199479874910)x^10

看来第二条曲线的拟合效果最好，也更符合原函数的曲线，第一幅图欠拟合，三、四过拟合。

作者：我是8位的

出处：http://www.cnblogs.com/bigmonkey

本文以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，非商业用途！

扫描二维码关注公作者众号“我是8位的”

原文地址：https://www.cnblogs.com/bigmonkey/p/11315478.html

上一篇：实用技巧解析：深入解读XGBoost背后的奥秘

下一篇：高阶导数