残差网络 (ResNet 与 ResNeXt)
本文基于d2l项目内容整理,深入介绍残差网络ResNet的核心思想和技术创新,包括残差块设计、跳跃连接机制,以及ResNeXt的分组卷积改进。
深度网络训练的困境:
向模型添加更多的层以增加深度,期望降低任务误差。从 LeNet 到 GoogLeNet,深度逐渐增加的模型也获得了更好的性能。但训练更深的网络时,即使使用了批量归一化方法,误差仍然不降反升。
1. 残差网络的理论基础
1.1 函数嵌套与表达能力
神经网络的函数抽象:
特定的神经网络模型本质上可抽象为一个从输入数据映射到输出结果的函数 $f$,网络架构(层的连接方式、激活函数等)、可学习的参数(权重与偏置等)与超参数的微调本质上是微调了函数 $f$。对于特定的一类神经网络架构,从输入数据到输出结果的一系列可能的映射均可涵盖在函数类 $\mathcal{F}$ 中,即 $f \in \mathcal{F}$。
1.2 最优函数寻找问题
只要问题是可计算的,理论上就一定存在最佳函数 $f^$ 将问题完美解决。使用现有神经网络 $\mathcal{F}$ 解决该问题的前提,是找到当前架构 $\mathcal{F}$ 下的最佳函数 $f_{\mathcal{F}}^$ 作为问题的近似解。训练模型,调整现有函数 $f$ 的参数,使输入数据 $x$ 经网络 $f$ 输出后与真实标签 $y$ 的损失值 $L(f(x), y)$ 最小,最终得到使损失值最小的函数 $f_{\mathcal{F}}^*$:
1.3 函数嵌套的重要性
架构设计的关键原则:
当数据的复杂性超出了原有架构 $\mathcal{F}$ 的表达能力时,即使是原有架构 $\mathcal{F}$ 下的最佳函数 $f_{\mathcal{F}}^*$,也可能无法得到太好的结果。于是尝试设计新架构 $\mathcal{F}’$:
嵌套情况 ($\mathcal{F} \subseteq \mathcal{F}$):新架构拥有更复杂的函数空间、更多的灵活性,其最佳函数更可能接近理想函数 %}
{% checkbox unchecked
深度网络设计的关键洞察:
添加层以加深神经网络的目的,是为了扩展原有模型 $\mathcal{F}$ 的表达能力,使其能够表示更复杂的输入输出映射。在最差的情况下,新添加的层 $g$ 没有学到任何有用的特征,新模型也能完整地退化为原有模型,不改变已有的输入输出映射:
这一恒等映射的引入,限制了深度网络扩展时的性能下界、避免了不必要的复杂度的产生、提供了进一步优化的可能性。
ResNet 的革命性思想:
这正是何凯明等人于 2016 年提出的残差网络 (Residual Network, ResNet) 的核心思想:让新添加的层学习来自输入的残差,而不直接拟合输出,实现更稳定、高效的网络。该网络模型在 2015 年 ImageNet 图像识别挑战赛中夺魁,深刻影响了后来的深度神经网络设计。
2. ResNet 网络架构设计
2.1 残差块的设计原理
残差块的核心概念:
残差块不是直接学习从输入 $x$ 到输出 $y$ 的映射,而是学习残差映射。假设我们希望学习的映射为 $H(x)$,残差块让堆叠的层学习残差函数 $F(x) = H(x) - x$,因此原映射变为 $F(x) + x$。
传统网络层的学习方式
- 直接学习 $H(x)$:输入到输出的完整映射
- 当网络很深时,直接学习复杂映射变得困难
- 梯度消失和训练困难问题
残差学习方式
- 学习残差 $F(x) = H(x) - x$
- 假设残差比原映射更容易学习
- 最终输出:$H(x) = F(x) + x$
- 当 $F(x) = 0$ 时,自然退化为恒等映射
3. ResNet 与 ResNeXt 完整网络架构
3.1 ResNet 网络结构
ResNet 网络架构特点:
ResNet 网络架构参考了 GoogLeNet,从输出通道数为 64、步幅为 2 的 7×7 卷积层和步幅为 2 的 3×3 最大池化层开始,最后依次由全局平均池化层展平后经过全连接层输出。中间部分由一系列残差块堆叠而成。
3.2 ResNet-18 结构分析
网络开始部分
- 7×7 卷积层 (输出通道64,步幅2)
- 3×3 最大池化层 (步幅2)
残差块分组设计
第1组:两个连续的64通道残差块
第2组:特征图减半、通道数翻倍 + 瓶颈结构
第3组:重复第2组的设计模式
第4组:继续重复,形成深层特征提取
ResNet-18 层数计算
- 不考虑跳跃连接的1×1卷积层
- 共计:1 + 2×2 + (2+2)×3 = 17 个卷积层
- 考虑最后一个全连接层:共18个计算密集层
- 因此称为 ResNet-18
- 其他变体:ResNet-101、ResNet-152等
3.3 ResNeXt 的改进
ResNeXt 的分组卷积创新:
ResNeXt 网络与 ResNet 网络类似,只是将残差块用分组残差块替代,通过引入”cardinality”(基数)概念,在不显著增加参数的情况下提升模型性能。
3.4 PyTorch 实现
架构优势对比:
与 GoogLeNet 相比,ResNet 架构更简单、更易于扩展和训练,且性能更佳,这些因素都促进了 ResNet 的广泛使用。
1 | from typing import Optional |
4. 网络结构分析
4.1 ResNet 与 ResNeXt 参数对比
使用torchinfo
库的summary
函数执行输出维度测试:
1 | from torchinfo import summary |
4.2 网络参数统计对比
ResNet 网络参数:
- 总参数量:5,345,098 个参数(约 535 万)
- 计算复杂度:1.08 GB 乘加运算
- 内存占用:总计约 58.51 MB
- 特点:深层网络但参数控制合理
ResNeXt 网络参数:
- 总参数量:658,122 个参数(约 66 万)
- 计算复杂度:571.92 MB 乘加运算
- 内存占用:总计约 41.87 MB
- 特点:分组卷积显著减少参数数量
ResNet vs ResNeXt 对比:
参数效率:ResNeXt 参数量仅为 ResNet 的 12.3%
计算量:ResNeXt 计算量约为 ResNet 的 52.8%
内存效率:ResNeXt 内存占用减少约 28.5%
设计哲学:ResNeXt 分而治之 vs ResNet 深度加宽
5. 模型训练与评估
5.1 训练配置设置
继续使用training_tools.py
中的工具训练评估模型:
1 | if __name__ == '__main__': |
5.2 ResNet 训练结果
查看ResNet完整训练过程
1 | 第 001/30 轮,训练损失:0.7456,训练精度:75.69 ,测试损失:0.5445,测试精度:81.32 |
5.3 ResNeXt 训练结果
查看ResNeXt完整训练过程
1 | 第 001/30 轮,训练损失:1.1331,训练精度:73.02 ,测试损失:0.5520,测试精度:80.88 |
5.4 性能对比分析
ResNet 训练表现:
- 最终训练精度:100.00%
- 最终测试精度:90.04%
- 收敛特点:快速收敛,过拟合明显
- 参数优势:结构简单,参数集中
ResNeXt 训练表现:
- 最终训练精度:96.85%
- 最终测试精度:87.98%
- 收敛特点:较稳定,泛化性更好
- 参数优势:分组卷积,参数更少
实验结论分析:
ResNet 在本次实验中的表现优于 ResNeXt,训练和测试准确率更高、损失更低,收敛也更快。可能的主要原因是:
数据集规模:ResNet 结构更简单、参数更集中,适合小数据集
训练轮数:有限的训练轮数下,ResNet 能更快收敛
任务复杂度:Fashion-MNIST 相对简单,ResNeXt 优势未充分体现
大数据集:ResNeXt 的优势或许在大数据集和更复杂任务中才能体现
总结
本文深入探讨了残差网络的理论基础和实际应用:
- 理论创新:残差学习解决了深度网络训练中的梯度消失问题,通过跳跃连接实现恒等映射
- 架构设计:ResNet 的残差块设计简洁有效,确保网络能退化为浅层网络的性能下界
- 技术进步:ResNeXt 通过分组卷积引入”基数”概念,在参数效率上有显著提升
- 实验验证:两种网络在 Fashion-MNIST 上的表现证明了残差连接的有效性
- 应用价值:残差网络的思想影响了后续几乎所有的深度学习架构设计
残差网络不仅解决了深度网络的训练难题,更重要的是为深度学习提供了新的设计范式,成为现代深度学习架构的基石。