• 5.9. 含并行连结的网络(GoogLeNet)
    • 5.9.1. Inception 块
    • 5.9.2. GoogLeNet模型
    • 5.9.3. 获取数据和训练模型
    • 5.9.4. 小结
    • 5.9.5. 练习
    • 5.9.6. 参考文献

    Inception块的结构 图 5.8 Inception块的结构


    5.9. 含并行连结的网络(GoogLeNet) - 图25.9. 含并行连结的网络(GoogLeNet) - 图35.9. 含并行连结的网络(GoogLeNet) - 图4 的卷积层来抽取不同空间尺寸下的信息,其中中间2个线路会对输入先做 5.9. 含并行连结的网络(GoogLeNet) - 图5 卷积来减少输入通道数,以降低模型复杂度。第四条线路则使用 5.9. 含并行连结的网络(GoogLeNet) - 图6 最大池化层,后接 5.9. 含并行连结的网络(GoogLeNet) - 图7 卷积层来改变通道数。4条线路都使用了合适的填充来使输入与输出的高和宽一致。最后我们将每条线路的输出在通道维上连结,并输入接下来的层中去。


    1. In [1]:
    1. import d2lzh as d2l
    2. from mxnet import gluon, init, nd
    3. from mxnet.gluon import nn
    5. class Inception(nn.Block):
    6. # c1 - c4为每条线路里的层的输出通道数
    7. def __init__(self, c1, c2, c3, c4, **kwargs):
    8. super(Inception, self).__init__(**kwargs)
    9. # 线路1,单1 x 1卷积层
    10. self.p1_1 = nn.Conv2D(c1, kernel_size=1, activation='relu')
    11. # 线路2,1 x 1卷积层后接3 x 3卷积层
    12. self.p2_1 = nn.Conv2D(c2[0], kernel_size=1, activation='relu')
    13. self.p2_2 = nn.Conv2D(c2[1], kernel_size=3, padding=1,
    14. activation='relu')
    15. # 线路3,1 x 1卷积层后接5 x 5卷积层
    16. self.p3_1 = nn.Conv2D(c3[0], kernel_size=1, activation='relu')
    17. self.p3_2 = nn.Conv2D(c3[1], kernel_size=5, padding=2,
    18. activation='relu')
    19. # 线路4,3 x 3最大池化层后接1 x 1卷积层
    20. self.p4_1 = nn.MaxPool2D(pool_size=3, strides=1, padding=1)
    21. self.p4_2 = nn.Conv2D(c4, kernel_size=1, activation='relu')
    23. def forward(self, x):
    24. p1 = self.p1_1(x)
    25. p2 = self.p2_2(self.p2_1(x))
    26. p3 = self.p3_2(self.p3_1(x))
    27. p4 = self.p4_2(self.p4_1(x))
    28. return nd.concat(p1, p2, p3, p4, dim=1) # 在通道维上连结输出

    5.9.2. GoogLeNet模型


    5.9. 含并行连结的网络(GoogLeNet) - 图8 最大池化层来减小输出高宽。第一模块使用一个64通道的 5.9. 含并行连结的网络(GoogLeNet) - 图9 卷积层。

    1. In [2]:
    1. b1 = nn.Sequential()
    2. b1.add(nn.Conv2D(64, kernel_size=7, strides=2, padding=3, activation='relu'),
    3. nn.MaxPool2D(pool_size=3, strides=2, padding=1))


    5.9. 含并行连结的网络(GoogLeNet) - 图10 卷积层,然后是将通道增大3倍的 5.9. 含并行连结的网络(GoogLeNet) - 图11 卷积层。它对应Inception块中的第二条线路。

    1. In [3]:
    1. b2 = nn.Sequential()
    2. b2.add(nn.Conv2D(64, kernel_size=1, activation='relu'),
    3. nn.Conv2D(192, kernel_size=3, padding=1, activation='relu'),
    4. nn.MaxPool2D(pool_size=3, strides=2, padding=1))


    5.9. 含并行连结的网络(GoogLeNet) - 图12 ,其中4条线路的输出通道数比例为 5.9. 含并行连结的网络(GoogLeNet) - 图13 。其中第二、第三条线路先分别将输入通道数减小至 5.9. 含并行连结的网络(GoogLeNet) - 图145.9. 含并行连结的网络(GoogLeNet) - 图15 后,再接上第二层卷积层。第二个Inception块输出通道数增至 5.9. 含并行连结的网络(GoogLeNet) - 图16 ,每条线路的输出通道数之比为 5.9. 含并行连结的网络(GoogLeNet) - 图17 。其中第二、第三条线路先分别将输入通道数减小至 5.9. 含并行连结的网络(GoogLeNet) - 图185.9. 含并行连结的网络(GoogLeNet) - 图19

    1. In [4]:
    1. b3 = nn.Sequential()
    2. b3.add(Inception(64, (96, 128), (16, 32), 32),
    3. Inception(128, (128, 192), (32, 96), 64),
    4. nn.MaxPool2D(pool_size=3, strides=2, padding=1))


    5.9. 含并行连结的网络(GoogLeNet) - 图205.9. 含并行连结的网络(GoogLeNet) - 图215.9. 含并行连结的网络(GoogLeNet) - 图225.9. 含并行连结的网络(GoogLeNet) - 图235.9. 含并行连结的网络(GoogLeNet) - 图24 。这些线路的通道数分配和第三模块中的类似,首先含 5.9. 含并行连结的网络(GoogLeNet) - 图25 卷积层的第二条线路输出最多通道,其次是仅含 5.9. 含并行连结的网络(GoogLeNet) - 图26 卷积层的第一条线路,之后是含 5.9. 含并行连结的网络(GoogLeNet) - 图27 卷积层的第三条线路和含 5.9. 含并行连结的网络(GoogLeNet) - 图28 最大池化层的第四条线路。其中第二、第三条线路都会先按比例减小通道数。这些比例在各个Inception块中都略有不同。

    1. In [5]:
    1. b4 = nn.Sequential()
    2. b4.add(Inception(192, (96, 208), (16, 48), 64),
    3. Inception(160, (112, 224), (24, 64), 64),
    4. Inception(128, (128, 256), (24, 64), 64),
    5. Inception(112, (144, 288), (32, 64), 64),
    6. Inception(256, (160, 320), (32, 128), 128),
    7. nn.MaxPool2D(pool_size=3, strides=2, padding=1))


    5.9. 含并行连结的网络(GoogLeNet) - 图295.9. 含并行连结的网络(GoogLeNet) - 图30 的两个Inception块。其中每条线路的通道数的分配思路和第三、第四模块中的一致,只是在具体数值上有所不同。需要注意的是,第五模块的后面紧跟输出层,该模块同NiN一样使用全局平均池化层来将每个通道的高和宽变成1。最后我们将输出变成二维数组后接上一个输出个数为标签类别数的全连接层。

    1. In [6]:
    1. b5 = nn.Sequential()
    2. b5.add(Inception(256, (160, 320), (32, 128), 128),
    3. Inception(384, (192, 384), (48, 128), 128),
    4. nn.GlobalAvgPool2D())
    6. net = nn.Sequential()
    7. net.add(b1, b2, b3, b4, b5, nn.Dense(10))


    1. In [7]:
    1. X = nd.random.uniform(shape=(1, 1, 96, 96))
    2. net.initialize()
    3. for layer in net:
    4. X = layer(X)
    5. print(layer.name, 'output shape:\t', X.shape)
    1. sequential0 output shape: (1, 64, 24, 24)
    2. sequential1 output shape: (1, 192, 12, 12)
    3. sequential2 output shape: (1, 480, 6, 6)
    4. sequential3 output shape: (1, 832, 3, 3)
    5. sequential4 output shape: (1, 1024, 1, 1)
    6. dense0 output shape: (1, 10)

    5.9.3. 获取数据和训练模型


    1. In [8]:
    1. lr, num_epochs, batch_size, ctx = 0.1, 5, 128, d2l.try_gpu()
    2. net.initialize(force_reinit=True, ctx=ctx, init=init.Xavier())
    3. trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
    4. train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
    5. d2l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx,
    6. num_epochs)
    1. training on gpu(0)
    2. epoch 1, loss 1.8431, train acc 0.292, test acc 0.572, time 26.6 sec
    3. epoch 2, loss 0.7332, train acc 0.718, test acc 0.802, time 23.5 sec
    4. epoch 3, loss 0.4695, train acc 0.826, test acc 0.844, time 23.4 sec
    5. epoch 4, loss 0.3858, train acc 0.854, test acc 0.873, time 23.5 sec
    6. epoch 5, loss 0.3423, train acc 0.872, test acc 0.863, time 23.6 sec

    5.9.4. 小结

    • Inception块相当于一个有4条线路的子网络。它通过不同窗口形状的卷积层和最大池化层来并行抽取信息,并使用 5.9. 含并行连结的网络(GoogLeNet) - 图31 卷积层减少通道数从而降低模型复杂度。
    • GoogLeNet将多个设计精细的Inception块和其他层串联起来。其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的。
    • GoogLeNet和它的后继者们一度是ImageNet上最高效的模型之一:在类似的测试精度下,它们的计算复杂度往往更低。

    5.9.5. 练习

    • GoogLeNet有数个后续版本。尝试实现并运行它们,然后观察实验结果。这些后续版本包括加入批量归一化层(下一节将介绍)[2]、对Inception块做调整[3]和加入残差连接(“残差网络(ResNet)”一节将介绍)[4]。
    • 对比AlexNet、VGG和NiN、GoogLeNet的模型参数尺寸。为什么后两个网络可以显著减小模型参数尺寸?

