学深度学习-预备知识4-微积分

2025-07-20 本文已影响0人 R7_Perfect

大约2500年前，古希腊人通过将多边形分成小三角形，再把这些三角形的面积加起来，找到了计算多边形面积的方法。为了计算像圆这种曲线形状的面积，他们发明了“内接多边形”的方法：在曲线内画一个多边形，随着边数越来越多，多边形就越来越接近圆。这种方法叫做逼近法。

image.png

实际上，逼近法就是积分的雏形。几千年后，另一种微积分分支——微分，也被发明了。微分主要用于解决优化问题，简单来说，就是找到让事情做到最好的方法。在深度学习中，优化问题随处可见。
在深度学习里，我们通过“训练”模型，不断调整它的参数，让模型在看到更多数据后表现得越来越好。通常，表现更好意味着我们在最小化损失函数，也就是一个用来衡量模型表现有多差的分数。最终，我们希望模型在从未见过的数据上也能有良好表现，但训练过程只能让模型适应已知数据。
因此，训练模型可以分为两个核心问题：

优化：通过调整模型参数，使它更好地拟合已有数据；
泛化：通过数学理论和经验，确保模型在未见过的数据上也能有好表现。

为了更好理解后续的优化问题和方法，本文提供了一个简明的微分基础教程，帮助读者快速掌握深度学习中的常用微分知识。

1. 导数和微分

我们首先讨论如何计算导数，这是几乎所有深度学习优化算法的核心步骤。在深度学习中，通常选择对于模型参数可微的损失函数。简单来说，对于每个参数，我们希望知道当这个参数增加或减少一个极小的量时，损失函数的变化速度。
假设我们有一个函数 𝑓(𝑥)，其输入和输出都是标量。如果这个函数的导数存在，那么导数的定义可以用下面的公式表示：

1753060654914.png

如果这个极限存在，我们就说 𝑓(𝑥)在 𝑥 处是可微的。若函数在某个区间的每个点上都是可微的，则称该函数在该区间内是可微的。导数 𝑓′(𝑥)可以解释为 𝑓(𝑥)在 𝑥 处的瞬时变化率，即当 ℎ 很小时，𝑓(𝑥)随着 𝑥 的变化速度。

1.1 实验：计算导数

为了更好地理解导数，假设我们定义一个简单的函数：f(x)=3x^2−4x

def f(x):
    return 3 * x ** 2 - 4 * x

现在，我们通过减小 ℎ 值，来计算数值导数。我们将使用以下代码进行实验：

def numerical_lim(f, x, h):
    return (f(x + h) - f(x)) / h


h = 0.1
for i in range(5):
    print(f'h={h:.5f}, numerical limit={numerical_lim(f, 1, h):.5f}')
    h *= 0.1

运行结果如下：

h=0.10000, numerical limit=2.30000
h=0.01000, numerical limit=2.03000
h=0.00100, numerical limit=2.00300
h=0.00010, numerical limit=2.00030
h=0.00001, numerical limit=2.00003

从上面的结果可以看出，随着 h越来越小，数值结果越来越接近 2，这说明当
h→0时，导数的精确值为 2。

1.2 导数符号

对于导数，以下符号是等价的：

1753060994265.png

其中，d/dx,df/dx都是微分运算符，表示对 𝑥 求导数。为了求出常见函数的导数，可以使用以下规则：

常数的导数为 0。
幂函数的导数：

1753061109722.png

（其中 𝑛 是实数）。

1.3 微分法则

若 𝑓(𝑥) 和 𝑔(𝑥) 都是可微的函数，且 𝑐 是常数，那么以下法则适用：

1753061689182.png

1.4 导数的可视化

我们需要定义几个函数，保存在一个独立的包d2l中，以后无须重新定义就可以直接调用它们（例如，d2l.use_svg_display()）。

import sys
from matplotlib import pyplot as plt
from matplotlib_inline import backend_inline

# 设置中文字体（SimHei 是黑体字）
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号 '-' 显示成方块的问题
d2l = sys.modules[__name__]


def use_svg_display():  # @save
    """使用svg格式在Jupyter中显示绘图"""
    backend_inline.set_matplotlib_formats('svg')


# 我们定义set_figsize函数来设置图表大小。
# 注意，这里可以直接使用d2l.plt，因为导入语句 from matplotlib import pyplot as plt已标记为保存到d2l包中。
def set_figsize(figsize=(3.5, 2.5)):  # @save
    """设置matplotlib的图表大小"""
    use_svg_display()
    d2l.plt.rcParams['figure.figsize'] = figsize


# 下面的set_axes函数用于设置由matplotlib生成图表的轴的属性。
def set_axes(axes, xlabel, ylabel, xlim, ylim, xscale, yscale, legend):
    """设置matplotlib的轴"""
    axes.set_xlabel(xlabel)
    axes.set_ylabel(ylabel)
    axes.set_xscale(xscale)
    axes.set_yscale(yscale)
    axes.set_xlim(xlim)
    axes.set_ylim(ylim)
    if legend:
        axes.legend(legend)
    axes.grid()


# 通过这三个用于图形配置的函数，定义一个plot函数来简洁地绘制多条曲线，因为我们需要在整个书中可视化许多曲线。
def plot(X, Y=None, xlabel=None, ylabel=None, legend=None, xlim=None,
         ylim=None, xscale='linear', yscale='linear',
         fmts=('-', 'm--', 'g-.', 'r:'), figsize=(3.5, 2.5), axes=None):
    """绘制数据点"""
    if legend is None:
        legend = []

    set_figsize(figsize)
    axes = axes if axes else d2l.plt.gca()

    # 如果X有一个轴，输出True
    def has_one_axis(X):
        return (hasattr(X, "ndim") and X.ndim == 1 or isinstance(X, list)
                and not hasattr(X[0], "__len__"))

    if has_one_axis(X):
        X = [X]
    if Y is None:
        X, Y = [[]] * len(X), X
    elif has_one_axis(Y):
        Y = [Y]
    if len(X) != len(Y):
        X = X * len(Y)
    axes.cla()
    for x, y, fmt in zip(X, Y, fmts):
        if len(x):
            axes.plot(x, y, fmt)
        else:
            axes.plot(y, fmt)
    set_axes(axes, xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
    plt.show()

为了更好地理解导数的几何意义，我们可以绘制函数 f(x) 及其在 x=1处的切线y=2x−3。切线的斜率就是该点的导数值。使用 matplotlib 绘图库，我们可以创建以下可视化：

import numpy as np
import d2l


def f(x):
    return 3 * x ** 2 - 4 * x


x = np.arange(0, 3, 0.1)
d2l.plot(x, [f(x), 2 * x - 3], 'x', 'f(x)', legend=['f(x)', 'Tangent line（切线） (x=1)'])