在机器学习中,许多函数都是多变量的。需要知道每个输入变量的变化如何影响输出。偏微分正是用于这个目的的。例如,在线性回归中可能要最小化多变量函数(即损失函数)。偏微分指明每个权重的变化如何影响总体误差。
偏微分适用于自变量有两个及两个以上的函数,本质上是一种降维后的运算。
请看例题:
求解\(f(x,y)=-x^2-y^2+5\)在\(2,3)\)处,关于\(x\)的偏导,求法是先将\(y=3\)代入函数后进行关于\(x\)的求导,再将\(x=2\)代入求得最后的结果,如下所示。
$$\begin{aligned}\left. \frac{\partial f}{\partial x} \right|_{(x_0,y_0)} &= \frac{d}{dx}f(x,y_0)\left. \right|_{x=x_0} \\ \left. \frac{\partial f}{\partial x} \right|_{(2,3)} &= \frac{d}{dx}(-x^2-9+5)\left. \right|_{x=2} \\ &= -2x\left. \right|_{x=2} \\ &= -4 \\ \end{aligned}$$
函数 \(f(x,y)\)由于有两个自变量,所以其函数存在于三维空间,如图所示:
![图片[1]-偏微分与全微分-点头深度学习网站](http://www.diantouedu.net/wp-content/uploads/2024/10/image-9.png)
f(x, y)关于x的偏微分
求解关于\(x\)的偏微分时,固定住\(y\),相当于图中的矩形平面,然后再关于\(x\)进行求导,本质上是一种降维后的求导运算。
至于全微分,则是偏微分的求和,公式如下所示:
$$dz = \frac{\partial f}{\partial x}dx + \frac{\partial f}{\partial y}dy$$
其含义可类比于微分的含义,即自变量\(x,y)\)的微小变动引起的函数变动\(dz\)等于\(x)\)微小变动引起的变化\(\frac{\partial f}{\partial x}\)加上\(y\)微小变动引起的变化\(\frac{\partial f}{\partial y}\)。
暂无评论内容