轻松掌握机器学习基础：导数笔记解析

最编程 2024-02-19 07:22:56

...

（参考百度百科）

导数定义：

设函数y=f(x)在点x0的某个邻域内有定义，当自变量x在x0处有增量Δx，(x0+Δx)也在该邻域内时，相应地函数取得增量Δy=f(x0+Δx)-f(x0)；如果Δy与Δx之比当Δx→0时极限存在，则称函数y=f(x)在点x0处可导，并称这个极限为函数y=f(x)在点x0处的导数记作

导函数：

如果函数y=f(x)在开区间内每一点都可导，就称函数f(x)在区间内可导。这时函数y=f(x)对于区间内的每一个确定的x值，都对应着一个确定的导数值，这就构成一个新的函数，称这个函数为原来函数y=f(x)的导函数，记作y'、f'(x)、dy/dx或df(x)/dx，简称导数。

几何意义：

函数y=f(x)在x0点的导数f'(x0)的几何意义：表示函数曲线在点P0(x0,f(x0))处的切线的斜率（导数的几何意义是该函数曲线在这一点上的切线斜率）。

偏导数：

偏导数的表示符号为:∂。

x方向的偏导

设有二元函数 z=f(x,y) ，点(x0,y0)是其定义域D 内一点。把 y 固定在 y0而让 x 在 x0 有增量 △x ，相应地函数 z=f(x,y) 有增量（称为对 x 的偏增量）△z=f(x0+△x,y0)-f(x0,y0)。

如果 △z 与 △x 之比当 △x→0 时的极限存在，那么此极限值称为函数 z=f(x,y) 在 (x0,y0)处对 x 的偏导数，记作 f'x(x0,y0)或。函数 z=f(x,y) 在(x0,y0)处对 x 的偏导数，实际上就是把 y 固定在 y0看成常数后，一元函数z=f(x,y0)在 x0处的导数。

y方向的偏导

同样，把 x 固定在 x0，让 y 有增量 △y ，如果极限存在那么此极限称为函数 z=(x,y) 在 (x0,y0)处对 y 的偏导数。记作f'y(x0,y0)。

几何意义：

表示固定面上一点的切线斜率。

偏导数 f'x(x0,y0) 表示固定面上一点对 x 轴的切线斜率；偏导数 f'y(x0,y0) 表示固定面上一点对 y 轴的切线斜率

高阶导数：

一阶导数的导数称为二阶导数，二阶以上的导数可由归纳法逐阶定义。二阶和二阶以上的导数统称为高阶导数。

y = f(x)的导数 y = f'(x)仍是 x 的函数，通常把导函数y=f'(x) 的导数叫做函数的二阶导数，记作:f''(x),y" 即

或者写成：

类似地，二阶导数的导数叫做三阶导数，三阶导数的导数叫做四阶导数…… . 一般地，n-1阶导数的导数叫做 n 阶导数，即

分别记作：

或者写为：

二阶及二阶以上的导数统称为高阶导数。

高阶导数的计算法则：

1. u(x),v(x)和的n阶导数

设函数u(x),v(x)在点x都具有n阶导数，则有：

2 u(x),v(x)积的n阶导数（莱布尼兹公式）：

设函数u(x),v(x)在点x都具有n阶导数：则有

复合函数及链式法则：

链式法则是求复合函数的导数（偏导数）的法则。

从一元函数出发，设 x 是实数，f 和 g 是从实数映射到实数的函数。假设 y=g(x)，且 u=f(g(x))=f(y)，即 u 是 x 的符合函数。是指

这个结论可推广到任意有限个函数复合到情形，于是复合函数的导数将是构成复合这有限个函数在相应点的导数的乘积，就像锁链一样一环套一环，故称链式法则。

多元函数的链式法则：

若多元函数 u=g(y1,y2,...,ym) 在点 ????=(b1,b2,...,bm) 处可微，bi=fi(a1,a2,...,an)(i=1,2,...,m)，每个函数 fi(x1,x2,...,xn) 在点 (a1,a2,...,an) 处都可微，则函数 u=g(f1(x1,x2,...,xn)，f2(x1,x2,...,xn),...,fm(x1,x2,...,xn)) 也在(a1,a2,...,an) 处可微，且

这就是多元函数的链式法则，若同时考察一组（p 个）复合函数 u1,u2,...,up，其中 uk=gk(fi(x1,x2,...,xn),f2(x1,x2,...,xn),...,fm(x1,x2,...,xn))(k=1,2,...,p)，将它们的偏导数写成矩阵（雅可比矩阵)，则可以看到链式法则在形式上更有规律性，这时

若对于上面考察的这些函数，令 ????=(g1,g2,...,gp)，????=(f1,f2,...,fm)，于是，???? 是 p 维向量值函数（定义与 ????m 的子集上），???? 是 m 维向量值函数（定义于????n 的子集上），按照定义，它们的导数是相应的雅可比矩阵，

等式右端为两矩阵????‘ (???? (????)) 与????‘ (????) 的矩阵乘积），其中????=(a1,a2,...,an).这就是向量值函数的链式法则，它在形式上与一元函数的链式法则完全相同

函数的凹凸性：

中国数学界关于函数凹凸性定义和国外很多定义是反的。国内教材中的凹凸，是指曲线，而不是指函数，图像的凹凸与直观感受一致，却与函数的凹凸性相反。只要记住“函数的凹凸性与曲线的凹凸性相反”就不会把概念搞乱了

定义：如果定义在某一区间上的一元实函数是连续函数，且对这一区间中的任何两点X1、X2，当X1<X2 时，有不等式

其中q1、q2为正数，q1+q2=1，这时，我们把函数f(x)叫做凹函数，或叫做下凸函数。

如果把上述条件中的“≥”改成“>”，则叫做严格凹函数，或叫做严格下凸函数。

如果y=f(x)是(严格)凹函数，那么它的图象是(严格)凹曲线，或叫做(严格)下凸曲线。

如果一元实函数f(x)在某区间二阶可导，那么这一函数为凹函数的充要条件是在这一区间上恒有f‘’(x)≤0(对于严格凹函数，只要改成f‘’(x)<0就可以了)。

设函数f(x)在定义域内连续可导且满足f''(x)>0；设x1

因ax1+(1-a)x2-x1=(1-a)(x2-x1)>0；

则x1

根据拉格朗日中值定理。

必存在x1<μ< ax1+(1-a)x2；

使f[ax1+(1-a)x2]-f(x1)= (1-a)(x2-x1)f'(μ)；

同理。

存在ax1+(1-a)x2<ξ

使f(x2)- f[ax1+(1-a)x2]= a(x2-x1)f'(ξ)；

故a{f[ax1+(1-a)x2]-f(x1)}- (1-a){f(x2)- f[ax1+(1-a)x2]}=a (1-a)(x2-x1)[f’(μ)- f’(ξ)]；

根据拉格朗日中值定理。

有μ<δ<ξ；

f'(μ)- f'(ξ)=(μ-ξ)f''(δ)；

因f''(x)>0；

则f'(μ)- f'(ξ)<0；

则a{f[ax1+(1-a)x2]-f(x1)}- (1-a){f(x2)- f[ax1+(1-a)x2]}<0；

整理后得f[ax1+(1-a)x2]

同理，若f''(x)≤0，则结果相反。

即若f''(x)≤0，则f[ax1+(1-a)x2]≥af(x1)+(1-a)f(x2)；满足凹函数的定义。

证明完毕；

泰勒公式：

泰勒公式是一个用函数在某点的信息描述其附近取值的公式。如果函数足够平滑的话，在已知函数在某一点的各阶导数值的情况之下，泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的邻域中的值。泰勒公式还给出了这个多项式和实际的函数值之间的偏差。

若函数f(x)在包含x0的某个闭区间[a,b]上具有n阶导数，且在开区间(a,b)上具有(n+1)阶导数，则对闭区间[a,b]上任意一点x，成立下式：

其中，

表示f(x)的n阶导数，等号后的多项式称为函数f(x)在x0处的泰勒展开式，剩余的Rn(x)是泰勒公式的余项，是(x-x0)n的高阶无穷小

实际应用中，泰勒公式需要截断，只取有限项，一个函数的有限项的泰勒级数叫做泰勒展开式。泰勒公式的余项可以用于估算这种近似的误差。

上一篇：理解 ALS 算法的工作机制及其在音乐推荐领域的实际运用

下一篇：理解人工智能背后的数学根基：导数详解

轻松掌握机器学习基础：导数笔记解析

导数定义：

导函数：

偏导数：

高阶导数：

高阶导数的计算法则：

复合函数及链式法则：

多元函数的链式法则：

函数的凹凸性：

泰勒公式：

速成指南：轻松掌握Python中的机器学习与深度学习之Numpy基础全面解析

从零开始轻松掌握机器学习基础原理篇

轻松掌握机器学习基础：导数笔记解析

新手指南：轻松掌握机器学习基础（实战代码示例）