自学内容网 自学内容网

动手学深度学习11.5. 小批量随机梯度下降-笔记&练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。

本节课程地址:72 优化算法【动手学深度学习v2】_哔哩哔哩_bilibili

本节教材地址:11.5. 小批量随机梯度下降 — 动手学深度学习 2.0.0 documentation

本节开源代码:...>d2l-zh>pytorch>chapter_multilayer-perceptrons>minibatch-sgd.ipynb


小批量随机梯度下降

到目前为止,我们在基于梯度的学习方法中遇到了两个极端情况:11.3节 中使用完整数据集来计算梯度并更新参数,11.4节 中一次处理一个训练样本来取得进展。 二者各有利弊:每当数据非常相似时,梯度下降并不是非常“数据高效”。 而由于CPU和GPU无法充分利用向量化,随机梯度下降并不特别“计算高效”。 这暗示了两者之间可能有折中方案,这便涉及到小批量随机梯度下降(minibatch gradient descent)。

向量化和缓存

使用小批量的决策的核心是计算效率。 当考虑与多个GPU和多台服务器并行处理时,这一点最容易被理解。在这种情况下,我们需要向每个GPU发送至少一张图像。 有了每台服务器8个GPU和16台服务器,我们就能得到大小为128的小批量。

当涉及到单个GPU甚至CPU时,事情会更微妙一些: 这些设备有多种类型的内存、通常情况下多种类型的计算单元以及在它们之间不同的带宽限制。 例如,一个CPU有少量寄存器(register),L1和L2缓存,以及L3缓存(在不同的处理器内核之间共享)。 随着缓存的大小的增加,它们的延迟也在增加,同时带宽在减少。 可以说,处理器能够执行的操作远比主内存接口所能提供的多得多。

首先,具有16个内核和AVX-512向量化的2GHz CPU每秒可处理高达 2 \cdot 10^9 \cdot 16 \cdot 32 = 10^{12} 个字节。 同时,GPU的性能很容易超过该数字100倍。 而另一方面,中端服务器处理器的带宽可能不超过100Gb/s,即不到处理器满负荷所需的十分之一。 更糟糕的是,并非所有的内存入口都是相等的:内存接口通常为64位或更宽(例如,在最多384位的GPU上)。 因此读取单个字节会导致由于更宽的存取而产生的代价。

其次,第一次存取的额外开销很大,而按序存取(sequential access)或突发读取(burst read)相对开销较小。 有关更深入的讨论,请参阅此维基百科文章

减轻这些限制的方法是使用足够快的CPU缓存层次结构来为处理器提供数据。 这是深度学习中批量处理背后的推动力。 举一个简单的例子:矩阵-矩阵乘法。 比如 \mathbf{A} = \mathbf{B}\mathbf{C} ,我们有很多方法来计算 \mathbf{A}。例如,我们可以尝试以下方法:

  1. 我们可以计算 \mathbf{A}_{ij} = \mathbf{B}_{i,:} \mathbf{C}_{:,j}^\top ,也就是说,我们可以通过点积进行逐元素计算。
  2. 我们可以计算 \mathbf{A}_{:,j} = \mathbf{B} \mathbf{C}_{:,j}^\top ,也就是说,我们可以一次计算一列。同样,我们可以一次计算 \mathbf{A} 一行 \mathbf{A}_{i,:} 。
  3. 我们可以简单地计算 \mathbf{A} = \mathbf{B}\mathbf{C} 。
  4. 我们可以将 \mathbf{B} 和 \mathbf{C} 分成较小的区块矩阵,然后一次计算 \mathbf{A} 的一个区块。

如果我们使用第一个选择,每次我们计算一个元素 \mathbf{A}_{ij} 时,都需要将一行和一列向量复制到CPU中。 更糟糕的是,由于矩阵元素是按顺序对齐的,因此当从内存中读取它们时,我们需要访问两个向量中许多不相交的位置。 第二种选择相对更有利:我们能够在遍历 \mathbf{B} 的同时,将列向量 \mathbf{C}_{:,j} 保留在CPU缓存中。 它将内存带宽需求减半,相应地提高了访问速度。 第三种选择表面上是最可取的,然而大多数矩阵可能不能完全放入缓存中。 第四种选择提供了一个实践上很有用的方案:我们可以将矩阵的区块移到缓存中然后在本地将它们相乘。 让我们来看看这些操作在实践中的效率如何。

除了计算效率之外,Python和深度学习框架本身带来的额外开销也是相当大的。 回想一下,每次我们执行代码时,Python解释器都会向深度学习框架发送一个命令,要求将其插入到计算图中并在调度过程中处理它。 这样的额外开销可能是非常不利的。 总而言之,我们最好用向量化(和矩阵)。

%matplotlib inline
import numpy as np
import torch
from torch import nn
from d2l import torch as d2l

timer = d2l.Timer()
A = torch.zeros(256, 256)
B = torch.randn(256, 256)
C = torch.randn(256, 256)

按元素分配只需遍历分别为 \mathbf{B} 和 \mathbf{C} 的所有行和列,即可将该值分配给 \mathbf{A} 。

# 逐元素计算A=BC
timer.start()
for i in range(256):
    for j in range(256):
        A[i, j] = torch.dot(B[i, :], C[:, j])
timer.stop()

输出结果:
1.0752716064453125

更快的策略是执行按列分配。

# 逐列计算A=BC
timer.start()
for j in range(256):
    A[:, j] = torch.mv(B, C[:, j])
timer.stop()

输出结果:
0.008958816528320312

最有效的方法是在一个区块中执行整个操作。让我们看看它们各自的操作速度是多少。

# 一次性计算A=BC
timer.start()
A = torch.mm(B, C)
timer.stop()

# 计算性能指标GigaFLOPS(每秒十亿次浮点运算)
# 乘法和加法作为单独的操作(在实践中融合),所以是2
gigaflops = [2/i for i in timer.times]
print(f'performance in Gigaflops: element {gigaflops[0]:.3f}, '
      f'column {gigaflops[1]:.3f}, full {gigaflops[2]:.3f}')

输出结果:
performance in Gigaflops: element 1.860, column 223.244, full 297.352

小批量

之前我们会理所当然地读取数据的小批量,而不是观测单个数据来更新参数,现在简要解释一下原因。 处理单个观测值需要我们执行许多单一矩阵-矢量(甚至矢量-矢量)乘法,这耗费相当大,而且对应深度学习框架也要巨大的开销。 这既适用于计算梯度以更新参数时,也适用于用神经网络预测。 也就是说,每当我们执行 \mathbf{w} \leftarrow \mathbf{w} - \eta_t \mathbf{g}_t 时,消耗巨大。其中

\mathbf{g}_t = \partial_{\mathbf{w}} f(\mathbf{x}_{t}, \mathbf{w}).

我们可以通过将其应用于一个小批量观测值来提高此操作的计算效率。 也就是说,我们将梯度 \mathbf{g}_t 替换为一个小批量而不是单个观测值

\mathbf{g}_t = \partial_{\mathbf{w}} \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} f(\mathbf{x}_{i}, \mathbf{w}).

让我们看看这对 \mathbf{g}_t 的统计属性有什么影响:由于 \mathbf{x}_t 和小批量 \mathcal{B}_t 的所有元素都是从训练集中随机抽出的,因此梯度的期望保持不变。 另一方面,方差显著降低。 由于小批量梯度由正在被平均计算的 b := |\mathcal{B}_t| 个独立梯度组成,其标准差降低了 b^{-\frac{1}{2}} 。 这本身就是一件好事,因为这意味着更新与完整的梯度更接近了。


补充:

1、方差的计算:假设每个样本的梯度 \partial_{\mathbf{w}} f(\mathbf{x}_i, \mathbf{w}) 是独立同分布的,那么小批量梯度的方差可以表示为 \text{Var}\left(\frac{1}{b} \sum_{i=1}^b \partial_{\mathbf{w}} f(\mathbf{x}_i, \mathbf{w})\right) = \frac{1}{b^2} \sum_{i=1}^b \text{Var}(\partial_{\mathbf{w}} f(\mathbf{x}_i, \mathbf{w})) = \frac{1}{b} \text{Var}(\partial_{\mathbf{w}} f(\mathbf{x}_i, \mathbf{w})).

这表明小批量梯度的方差是单个样本梯度方差的 \frac{1}{b} 倍。

2、标准差的计算:由于标准差是方差的平方根,因此小批量梯度的标准差是单个样本梯度标准差的 \frac{1}{\sqrt{b}} 倍,即 \text{Std}\left(\frac{1}{b} \sum_{i=1}^b \partial_{\mathbf{w}} f(\mathbf{x}_i, \mathbf{w})\right) = \frac{1}{\sqrt{b}} \text{Std}(\partial_{\mathbf{w}} f(\mathbf{x}_i, \mathbf{w})). 因此,使用小批量梯度可以减少梯度估计的方差和标准差,使得更新更接近于完整的梯度。这有助于提高模型训练的稳定性和效率。


直观来说,这表明选择大型的小批量 \mathcal{B}_t 将是普遍可行的。 然而,经过一段时间后,与计算代价的线性增长相比,标准差的额外减少是微乎其微的。 在实践中我们选择一个足够大的小批量,它可以提供良好的计算效率同时仍适合GPU的内存。 下面,我们来看看这些高效的代码。 在里面我们执行相同的矩阵-矩阵乘法,但是这次我们将其一次性分为64列的“小批量”。

timer.start()
for j in range(0, 256, 64):
    A[:, j:j+64] = torch.mm(B, C[:, j:j+64])
timer.stop()
print(f'performance in Gigaflops: block {2 / timer.times[3]:.3f}')

输出结果:
performance in Gigaflops: block 1586.648

显而易见,小批量上的计算基本上与完整矩阵一样有效。 需要注意的是,在 7.5节 中,我们使用了一种在很大程度上取决于小批量中的方差的正则化。 随着后者增加,方差会减少,随之而来的是批量规范化带来的噪声注入的好处。 关于实例,请参阅 (Ioffe, 2017),了解有关如何重新缩放并计算适当项目。

读取数据集

让我们来看看如何从数据中有效地生成小批量。 下面我们使用NASA开发的测试机翼的数据集不同飞行器产生的噪声来比较这些优化算法。 为方便起见,我们只使用前1,500样本。 数据已作预处理:我们移除了均值并将方差重新缩放到每个坐标为1。

#@save
d2l.DATA_HUB['airfoil'] = (d2l.DATA_URL + 'airfoil_self_noise.dat',
                           '76e5be1548fd8222e5074cf0faae75edff8cf93f')

#@save
def get_data_ch11(batch_size=10, n=1500):
    data = np.genfromtxt(d2l.download('airfoil'),
                         dtype=np.float32, delimiter='\t')
    # 数据标准化
    data = torch.from_numpy((data - data.mean(axis=0)) / data.std(axis=0))
    data_iter = d2l.load_array((data[:n, :-1], data[:n, -1]),
                               batch_size, is_train=True)
    return data_iter, data.shape[1]-1

从零开始实现

3.2节 一节中已经实现过小批量随机梯度下降算法。 我们在这里将它的输入参数变得更加通用,主要是为了方便本章后面介绍的其他优化算法也可以使用同样的输入。 具体来说,我们添加了一个状态输入states并将超参数放在字典hyperparams中。 此外,我们将在训练函数里对各个小批量样本的损失求平均,因此优化算法中的梯度不需要除以批量大小。

def sgd(params, states, hyperparams):
    for p in params:
        # .sub_从p.data中减去hyperparams['lr'] * p.grad的结果,更新参数
        p.data.sub_(hyperparams['lr'] * p.grad)
        # 梯度清零
        p.grad.data.zero_()

下面实现一个通用的训练函数,以方便本章后面介绍的其他优化算法使用。 它初始化了一个线性回归模型,然后可以使用小批量随机梯度下降以及后续小节介绍的其他算法来训练模型。

#@save
def train_ch11(trainer_fn, states, hyperparams, data_iter,
               feature_dim, num_epochs=2):
    # 初始化模型
    w = torch.normal(mean=0.0, std=0.01, size=(feature_dim, 1),
                     requires_grad=True)
    b = torch.zeros((1), requires_grad=True)
    # 初始化net为线性回归模型,loss为MSE
    net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
    # 训练模型
    animator = d2l.Animator(xlabel='epoch', ylabel='loss',
                            xlim=[0, num_epochs], ylim=[0.22, 0.35])
    n, timer = 0, d2l.Timer()
    for _ in range(num_epochs):
        for X, y in data_iter:
            l = loss(net(X), y).mean()
            l.backward()
            trainer_fn([w, b], states, hyperparams)
            n += X.shape[0]
            if n % 200 == 0:
                timer.stop()
                # 处理样本总数n/当前小批量数据中的样本数X.shape[0]/数据迭代器中所有小批量的总数
                # = 已经完成的epoch的比例,表示训练进度
                animator.add(n/X.shape[0]/len(data_iter),
                             (d2l.evaluate_loss(net, data_iter, loss),))
                timer.start()
    # animator.Y[0][-1]为最终的损失值
    print(f'loss: {animator.Y[0][-1]:.3f}, {timer.avg():.3f} sec/epoch')
    # 返回每个周期的时间累积和以及损失值列表。
    return timer.cumsum(), animator.Y[0]

让我们来看看批量梯度下降的优化是如何进行的。 这可以通过将小批量设置为1500(即样本总数)来实现。 因此,模型参数每个迭代轮数只迭代一次。

def train_sgd(lr, batch_size, num_epochs=2):
    data_iter, feature_dim = get_data_ch11(batch_size)
    return train_ch11(
        sgd, None, {'lr': lr}, data_iter, feature_dim, num_epochs)
#批量大小为总样本数,梯度下降
gd_res = train_sgd(1, 1500, 10)

输出结果:
loss: 0.250, 0.044 sec/epoch

当批量大小为1时,优化使用的是随机梯度下降。 为了简化实现,我们选择了很小的学习率。 在随机梯度下降的实验中,每当一个样本被处理,模型参数都会更新。 在这个例子中,这相当于每个迭代轮数有1500次更新。 可以看到,目标函数值的下降在1个迭代轮数后就变得较为平缓。 尽管两个例子在一个迭代轮数内都处理了1500个样本,但实验中随机梯度下降的一个迭代轮数耗时更多。 这是因为随机梯度下降更频繁地更新了参数,而且一次处理单个观测值效率较低。

# 批量大小为1,随机梯度下降
sgd_res = train_sgd(0.005, 1)

输出结果:
loss: 0.242, 0.056 sec/epoch

最后,当批量大小等于100时,我们使用小批量随机梯度下降进行优化。 每个迭代轮数所需的时间比随机梯度下降和批量梯度下降所需的时间短。

# 批量大小为100的小批量随机梯度下降
mini1_res = train_sgd(.4, 100)

输出结果:
loss: 0.246, 0.002 sec/epoch

将批量大小减少到10,每个迭代轮数的时间都会增加,因为每批工作负载的执行效率变得更低。

# 批量大小为10的小批量随机梯度下降
mini2_res = train_sgd(.05, 10)

输出结果:
loss: 0.245, 0.007 sec/epoch

现在我们可以比较前四个实验的时间与损失。 可以看出,尽管在处理的样本数方面,随机梯度下降的收敛速度快于梯度下降,但与梯度下降相比,它需要更多的时间来达到同样的损失,因为逐个样本来计算梯度并不那么有效。 小批量随机梯度下降能够平衡收敛速度和计算效率。 大小为10的小批量比随机梯度下降更有效; 大小为100的小批量在运行时间上甚至优于梯度下降。

d2l.set_figsize([6, 3])
d2l.plot(*list(map(list, zip(gd_res, sgd_res, mini1_res, mini2_res))),
         'time (sec)', 'loss', xlim=[1e-2, 1],
         legend=['gd', 'sgd', 'batch size=100', 'batch size=10'])
d2l.plt.gca().set_xscale('log')

简洁实现

下面用深度学习框架自带算法实现一个通用的训练函数,我们将在本章中其它小节使用它。

#@save
def train_concise_ch11(trainer_fn, hyperparams, data_iter, num_epochs=4):
    # 初始化模型
    net = nn.Sequential(nn.Linear(5, 1))
    def init_weights(m):
        if type(m) == nn.Linear:
            torch.nn.init.normal_(m.weight, std=0.01)
    net.apply(init_weights)

    # **用于解包字典,将其键值作为命名参数传递给trainer
    optimizer = trainer_fn(net.parameters(), **hyperparams)
    loss = nn.MSELoss(reduction='none')
    animator = d2l.Animator(xlabel='epoch', ylabel='loss',
                            xlim=[0, num_epochs], ylim=[0.22, 0.35])
    n, timer = 0, d2l.Timer()
    for _ in range(num_epochs):
        for X, y in data_iter:
            optimizer.zero_grad()
            out = net(X)
            y = y.reshape(out.shape)
            l = loss(out, y)
            l.mean().backward()
            optimizer.step()
            n += X.shape[0]
            if n % 200 == 0:
                timer.stop()
                # MSELoss计算平方误差时不带系数1/2
                animator.add(n/X.shape[0]/len(data_iter),
                             (d2l.evaluate_loss(net, data_iter, loss) / 2,))
                timer.start()
    print(f'loss: {animator.Y[0][-1]:.3f}, {timer.avg():.3f} sec/epoch')

下面使用这个训练函数,复现之前的实验。

data_iter, _ = get_data_ch11(10)
trainer = torch.optim.SGD
train_concise_ch11(trainer, {'lr': 0.01}, data_iter)

输出结果:
loss: 0.242, 0.008 sec/epoch

小结

  • 由于减少了深度学习框架的额外开销,使用更好的内存定位以及CPU和GPU上的缓存,向量化使代码更加高效。
  • 随机梯度下降的“统计效率”与大批量一次处理数据的“计算效率”之间存在权衡。小批量随机梯度下降提供了两全其美的答案:计算和统计效率。
  • 在小批量随机梯度下降中,我们处理通过训练数据的随机排列获得的批量数据(即每个观测值只处理一次,但按随机顺序)。
  • 在训练期间降低学习率有助于训练。
  • 一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度快,收敛风险较小。

练习

  1. 修改批量大小和学习率,并观察目标函数值的下降率以及每个迭代轮数消耗的时间。

解:
在CPU下测试:

  • 不同批量大小时,batch_size = 100时每个迭代轮数消耗的时间最少,且loss也最低。
  • 不同学习率时,每个迭代轮数消耗的时间一样,但lr = 0.1时的loss最低。

代码如下:

def train_ch11_1(trainer_fn, states, hyperparams, data_iter,
               feature_dim, num_epochs=2):
    # 初始化模型
    w = torch.normal(mean=0.0, std=0.01, size=(feature_dim, 1),
                     requires_grad=True)
    b = torch.zeros((1), requires_grad=True)
    net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
    # 训练模型
    animator = d2l.Animator(xlabel='epoch', ylabel='loss',
                            xlim=[0, num_epochs])
    n, timer = 0, d2l.Timer()
    for _ in range(num_epochs):
        for X, y in data_iter:
            l = loss(net(X), y).mean()
            l.backward()
            trainer_fn([w, b], states, hyperparams)
            n += X.shape[0]
            if n % 200 == 0:
                timer.stop()
                animator.add(n/X.shape[0]/len(data_iter),
                             (d2l.evaluate_loss(net, data_iter, loss),))
                timer.start()
    print(f'loss: {animator.Y[0][-1]:.3f}, {timer.avg():.3f} sec/epoch')
    return timer.cumsum(), animator.Y[0]
def train_sgd_11_1(lr, batch_size, num_epochs=2):
    data_iter, feature_dim = get_data_ch11(batch_size)
    return train_ch11_1(
        sgd, None, {'lr': lr}, data_iter, feature_dim, num_epochs)
#测试不同批量大小的影响
batch_1 = train_sgd_11_1(0.1, 1, 10)

输出结果:
loss: 0.335, 0.055 sec/epoch

batch_2 = train_sgd_11_1(0.1, 100, 10)

输出结果:
loss: 0.242, 0.002 sec/epoch

batch_3 = train_sgd_11_1(0.1, 500, 10)

输出结果:
loss: 0.249, 0.015 sec/epoch

batch_4 = train_sgd_11_1(0.1, 1500, 10)

输出结果:
loss: 0.309, 0.021 sec/epoch

d2l.set_figsize()
d2l.plot(*list(map(list, zip(batch_1, batch_2, batch_3, batch_4))),
         'time (sec)', 'loss', xlim=[1e-2, 5], ylim=[0, 1],
         legend=['batch_size=1', 'batch_size=100', 'batch_size=500', 'batch_size=1500'])
d2l.plt.gca().set_xscale('log')

#测试不同学习率的影响
lr_1 = train_sgd_11_1(.001, 100)

输出结果:
loss: 0.486, 0.003 sec/epoch

lr_2 = train_sgd_11_1(.01, 100)

输出结果:
loss: 0.411, 0.003 sec/epoch

lr_3 = train_sgd_11_1(.1, 100)

输出结果:
loss: 0.249, 0.002 sec/epoch

lr_4 = train_sgd_11_1(1, 100)

输出结果:
loss: 86.475, 0.003 sec/epoch

d2l.set_figsize()
d2l.plot(*list(map(list, zip(lr_1, lr_2, lr_3, lr_4))),
         'time (sec)', 'loss', xlim=[1e-2, 4*1e-2], ylim=[0, 5],
         legend=['lr=0.001', 'lr=0.01', 'lr=0.1', 'lr=1'])
d2l.plt.gca().set_xscale('log')

2. 将小批量随机梯度下降与实际从训练集中取样替换的变体进行比较。会看出什么?

解:
在CPU上采用相同的超参数:lr = 0.1, batch_size = 100,将小批量随机梯度下降与实际从训练集中取样替换的变体进行比较,结果如下:

  • 样本选择方式:
    • 小批量SGD样本不重复;
    • 随机替换取样SGD在每次选择小批量样本时都是随机的,且同一样本可能在多次选择中重复使用。
  • 内存使用:
    • 小批量SGD需要在内存中存储整个小批量的数据,对于非常大的数据集,这可能需要更多的内存。
    • 随机替换取样SGD:每次只需要加载小批量的样本,对于内存使用来说更加高效,所以下面的测试中每个epoch消耗的时间更少。
  • 收敛性:
    • 小批量SGD通常具有更好的收敛性,因为它的梯度估计更加稳定,所以下面的测试中loss更低。
    • 随机替换取样SGD样本可能重复利用,导致训练过程中的不稳定性,可能会在最优解附近振荡,收敛速度可能较慢,且有时难以达到较好的局部最小值。

比较代码如下:

def train_ch11_random_sampling(trainer_fn, states, hyperparams, data,
                                feature_dim, batch_size, num_epochs=2):
    # 初始化模型
    w = torch.normal(mean=0.0, std=0.01, size=(feature_dim, 1), requires_grad=True)
    b = torch.zeros((1), requires_grad=True)
    net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss

    # 训练模型
    animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[0, num_epochs])
    n, timer = 0, d2l.Timer()

    for _ in range(num_epochs):
        indices = np.arange(data.shape[0])
        # 损失的总和,样本数量
        metric = d2l.Accumulator(2)  
        for i in range(0, len(indices), batch_size):
            # 每个批量选择时随机打乱数据索引
            np.random.shuffle(indices)
            # 根据随机索引选择样本
            idx = indices[i:i+batch_size]
            X_batch = data[idx, :-1]
            y_batch = data[idx, -1]
            X_batch, y_batch = torch.tensor(X_batch, dtype=torch.float32), torch.tensor(y_batch, dtype=torch.float32)
            # 记录evaluate_loss
            l = loss(net(X_batch), y_batch)
            metric.add(l.sum(), l.numel())
            # 梯度更新
            l = loss(net(X_batch), y_batch).mean()
            l.backward()
            trainer_fn([w, b], states, hyperparams)
            n += batch_size
            if n % 200 == 0:
                timer.stop()
                animator.add(n/len(indices),
                             (metric[0] / metric[1],))
                timer.start()
    print(f'loss: {animator.Y[0][-1]:.3f}, {timer.avg():.3f} sec/epoch')
    return timer.cumsum(), animator.Y[0]
def train_random_sampling_sgd(lr, batch_size, num_epochs=2, n=1500):
    data = np.genfromtxt(d2l.download('airfoil'),
                         dtype=np.float32, delimiter='\t')
    data = torch.from_numpy((data - data.mean(axis=0)) / data.std(axis=0))
    data = data[:n, :]
    return train_ch11_random_sampling(
        sgd, None, {'lr': lr}, data, data.shape[1]-1, batch_size, num_epochs)

random_1 = train_random_sampling_sgd(0.1, 100)

输出结果:
loss: 0.264, 0.001 sec/epoch

d2l.set_figsize()
d2l.plot(*list(map(list, zip(lr_3, random_1))),
         'time (sec)', 'loss', xlim=[1e-2, 1e-1], ylim=[0.1, 0.5],
         legend=['minibatch-sgd', 'random_sampling-sgd'])
d2l.plt.gca().set_xscale('log')

 

3. 一个邪恶的精灵在没通知你的情况下复制了你的数据集(即每个观测发生两次,数据集增加到原始大小的两倍,但没有人告诉你)。随机梯度下降、小批量随机梯度下降和梯度下降的表现将如何变化?

解:
在CPU上采用相同的超参数进行比较:

  • 梯度下降:由于每次迭代使用整个数据集,复制数据集将导致每次迭代的时间增加,导致训练时间增加,且loss增大。
  • 随机梯度下降:由于每次只使用一个样本,复制数据集对迭代的时间几乎没有影响,loss下降略快些。
  • 小批量随机梯度下降:复制数据集对迭代的时间几乎没有影响。

实验代码如下:

def get_data_ch11_duplicate(batch_size=10, n=1500):
    data = np.genfromtxt(d2l.download('airfoil'),
                         dtype=np.float32, delimiter='\t')
    data = torch.from_numpy((data - data.mean(axis=0)) / data.std(axis=0))
    data = torch.cat((data, data), dim=0)
    data_iter = d2l.load_array((data[:n, :-1], data[:n, -1]),
                               batch_size, is_train=True)
    return data_iter, data.shape[1]-1

def train_sgd_duplicate(lr, batch_size, num_epochs=2):
    data_iter, feature_dim = get_data_ch11_duplicate(batch_size)
    return train_ch11(
        sgd, None, {'lr': lr}, data_iter, feature_dim, num_epochs)
gd_2 = train_sgd_duplicate(1, 1500, 10)

输出结果:
loss: 0.247, 0.048 sec/epoch

d2l.set_figsize([6, 3])
d2l.plot(*list(map(list, zip(gd_res, gd_2))),
         'time (sec)', 'loss', xlim=[1e-2, 10],
         legend=['raw_data_gd', 'double_data_gd'])
d2l.plt.gca().set_xscale('log')

 

sgd_2 = train_sgd_duplicate(0.005, 1)

输出结果:
loss: 0.242, 0.055 sec/epoch

d2l.set_figsize([6, 3])
d2l.plot(*list(map(list, zip(sgd_res, sgd_2))),
         'time (sec)', 'loss', xlim=[1e-2, 10],
         legend=['raw_data_sgd', 'double_data_sgd'])
d2l.plt.gca().set_xscale('log')

mini1_2 = train_sgd_duplicate(0.4, 100)

输出结果:
loss: 0.243, 0.002 sec/epoch

d2l.set_figsize([6, 3])
d2l.plot(*list(map(list, zip(mini1_res, mini1_2))),
         'time (sec)', 'loss', xlim=[1e-2, 1e-1],
         legend=['raw_data_minisgd', 'double_data_minisgd'])
d2l.plt.gca().set_xscale('log')


原文地址:https://blog.csdn.net/scdifsn/article/details/145179227

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!