欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

机器学习基础 - 多元线性回归

最编程 2024-06-07 10:22:30
...

多变量线性回归

Linear Regression with Multiple Variables

多维特征

多变量可以意味着多种特征,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x1,x2,...xn)(x_1,x_2,...x_n)

增添更多特征后,我们引入一系列新的注释:

  • n代表特征的数量
  • x(i)x^{(i)}代表第 i个训练实例,是特征矩阵中的第i行,是一个向量vector),如第二个训练实例
x(2)=[14163240]x^{(2)}=\begin{bmatrix} 1416\\3\\2\\40 \end{bmatrix}
  • xj(i)x^{(i)}_j代表特征矩阵中第i行的第j个特征,也就是第i个训练实例的第j个特征。

在线性函数中,多变量也就是指函数中多个x,支持多变量的假设h表示为:hθ(x)=θ0+θ1x1+θ2x2++θnxnh_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\ldots+\theta_nx_n

这个公式中有n+1个参数和n个变量,为了使得公式能够简化一些,引入x0=1x_0=1,则公式转化为:

hθ(x)=θ0x0+θ1x1+θ2x2++θnxnh_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+\ldots+\theta_nx_n

此时模型中的参数是一个n+1维的向量,任何一个训练实例也都是n+1维的向量,特征矩阵X的维度是m(n+1)m*(n+1)。 因此公式可以简化为:hθ(x)=θTXh_\theta(x)=\theta^TX,其中上标T代表矩阵转置,m是实例的数量。

多变量梯度下降

与单变量线性回归类似,在多变量线性回归中,我们也构建一个代价函数,则这个代价函数是所有建模误差的平方和,即:image.png

其中:hθ(x)=θ0+θ1x1+θ2x2++θnxnh_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\ldots+\theta_nx_n

我们的目标和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列参数。 多变量线性回归的批量梯度下降算法为:

image.png

同样对每个参数θ进行一次求导后收敛,不断优化θ的值

我们开始随机选择一系列的参数值,计算所有的预测结果后,再给所有的参数一个新的值,如此循环直到收敛。多变量与单变量相似,使用导数方法让局部的斜率不断减小,即离目标点们之间的距离越来越近(代价函数越来越小)

特征缩放

在我们面对多维特征问题的时候,我们要保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛。

以房价问题为例,假设我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0-2000平方英尺,而房间数量的值则是0-5,以两个参数分别为横纵坐标,绘制代价函数的等高线图能,看出图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛。

解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间(将数据特征化)

最简单的方法是令:xn=xnμnsnx_n=\frac {x_n-\mu_n}{s_n},其中μn\mu_n是平均值,sns_n是标准差。

学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

也有一些自动测试是否收敛的方法,例如将代价函数的变化值与某个阀值(例如0.001)进行比较,但通常看上面这样的图表更好。

梯度下降算法的每次迭代受到学习率的影响,如果学习率α过小,则达到收敛所需的迭代次数会非常高;如果学习率α过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率:0.01,0.03,0.1,0.3,1,3,10...

特征和多项式回归

如房价预测问题,

image.png

内容来源

[1]. 斯坦福机器学习课程2014.吴恩达

[2].斯坦福大学2014机器学习教程中文笔记目录

[3].Coursera-ML-AndrewNg-Notes