• 7. 优化算法

    7. 优化算法

    如果你一直按照本书的顺序读到这里,那么你已经使用了优化算法来训练深度学习模型。具体来说,在训练模型时,我们会使用优化算法不断迭代模型参数以降低模型损失函数的值。当迭代终止时,模型的训练随之终止,此时的模型参数就是模型通过训练所学习到的参数。

    优化算法对于深度学习十分重要。一方面,训练一个复杂的深度学习模型可能需要数小时、数日,甚至数周时间,而优化算法的表现直接影响模型的训练效率;另一方面,理解各种优化算法的原理以及其中超参数的意义将有助于我们更有针对性地调参,从而使深度学习模型表现更好。

    本章将详细介绍深度学习中常用的优化算法。

    • 7.1. 优化与深度学习
      • 7.1.1. 优化与深度学习的关系
      • 7.1.2. 优化在深度学习中的挑战
      • 7.1.3. 小结
      • 7.1.4. 练习
      • 7.1.5. 参考文献
      • 7.1.6. 参与讨论
    • 7.2. 梯度下降和随机梯度下降
      • 7.2.1. 一维梯度下降
      • 7.2.2. 学习率
      • 7.2.3. 多维梯度下降
      • 7.2.4. 随机梯度下降
      • 7.2.5. 小结
      • 7.2.6. 练习
      • 7.2.7. 参考文献
      • 7.2.8. 参与讨论
    • 7.3. 小批量随机梯度下降
      • 7.3.1. 读取数据
      • 7.3.2. 从零开始实现
      • 7.3.3. 简洁实现
      • 7.3.4. 小结
      • 7.3.5. 练习
      • 7.3.6. 参考文献
      • 7.3.7. 参与讨论
    • 7.4. 动量法
      • 7.4.1. 梯度下降的问题
      • 7.4.2. 动量法
      • 7.4.3. 从零开始实现
      • 7.4.4. 简洁实现
      • 7.4.5. 小结
      • 7.4.6. 练习
      • 7.4.7. 参与讨论
    • 7.5. AdaGrad算法
      • 7.5.1. 算法
      • 7.5.2. 特点
      • 7.5.3. 从零开始实现
      • 7.5.4. 简洁实现
      • 7.5.5. 小结
      • 7.5.6. 练习
      • 7.5.7. 参考文献
      • 7.5.8. 参与讨论
    • 7.6. RMSProp算法
      • 7.6.1. 算法
      • 7.6.2. 从零开始实现
      • 7.6.3. 简洁实现
      • 7.6.4. 小结
      • 7.6.5. 练习
      • 7.6.6. 参考文献
      • 7.6.7. 参与讨论
    • 7.7. AdaDelta算法
      • 7.7.1. 算法
      • 7.7.2. 从零开始实现
      • 7.7.3. 简洁实现
      • 7.7.4. 小结
      • 7.7.5. 练习
      • 7.7.6. 参考文献
      • 7.7.7. 参与讨论
    • 7.8. Adam算法
      • 7.8.1. 算法
      • 7.8.2. 从零开始实现
      • 7.8.3. 简洁实现
      • 7.8.4. 小结
      • 7.8.5. 练习
      • 7.8.6. 参考文献
      • 7.8.7. 参与讨论