前言

  总结读过的深度学习优化算法相关论文、书籍与资源。论文按结构分为算法型(提出一种新的优化器)、分析型(对优化算法进行收敛性分析或进行对比实验等等)与综述型。前两者同属研究型论文,按照以下三个标准评分,每项均为0到10(参考了如何判断(你自己的)研究工作的价值):

  • N(novelty):创新性,在之前的研究上有哪些新意
  • R(reproducibility):可复现性,论文idea能否复现?实际任务中能否达到论文中的效果?
  • V(value):idea的价值,论文对于怎样的问题研究有着怎样的推进?

而综述型论文只打一个总体分。(我尽量按最后更新时间排序)

综述型

  • An overview of gradient descent optimization algorithmsSebastian Ruder,arXiv,2017

点击展开简介与评语

  小而精的一篇survey。(14 pages)

  • Optimization Methods for Large-Scale Machine LearningLéon Bottou et al,SIAM Review,2018

点击展开简介与评语

  经典的关于优化算法理论分析的一篇综述,GD与SGD分析的非常透,关于其后续改进介绍了Noise Reduction的一些方法,还介绍了一些二阶方法,可惜的是自适应的方法介绍的不多。总体而言算是相当扎实的一篇综述了。(95 pages)

  • Gradient Descent based Optimization Algorithms for Deep Learning Models TrainingJiawei Zhang,arXiv,2019

点击展开简介与评语

  比较丰富地总结了若干优化器,演进历程比较清晰,有介绍各个算法的优缺但是缺陷的分析与改进讲的不深入,也没有引用比较理论的分析文献。总体而言算得上是一篇不错的introduction。(25 pages)

  • Optimization for deep learning: theory and algorithmsRuoyu Sun,arXiv,2019

点击展开简介与评语

  感觉全文的重点在于介绍深度学习优化中的挑战与对策,缺点就是讨论的话题太多了,每一部分都有点泛泛而谈,不过就250+的参考文献而言,这确实是一篇“综述”!(60 pages)

  • Convergence Theorems for Gradient DescentRobert M. Gower,arXiv,2022

点击展开简介与评语

  关于经典梯度下降与SGD收敛性能的一个小汇总,近端梯度下降讲得可以。(21 pages)

算法型

  • (HB) Some methods of speeding up the convergence of iteration methodsBoris T. Polyak,USSR Computational Mathematics and Mathematical Physics,Volume 4 Issue 5 Pages 1-17,1964 $N=9,R=10,V=10$

点击展开简介与评语

  首次将动量项引入到SGD中,提出了HB方法并证明了其在Lipschitz光滑+强凸情况下的收敛速度。

  • Optimal Distributed Online Prediction Using Mini-BatchesOfer Dekel et al,Journal of Machine Learning Research Volume 13,2012 $N=8,R=7,V=9$

点击展开简介与评语

  分析了Mini-Batch的思想,介绍了Mini-Batch SGD在在线学习中的应用

分析型

资源

  这部分就不评分了hhh

  • (Lecture)Linearly-convergent Stochastic Gradient AlgorithmsFrancis Bach,AIME@CZ - Czech workshop on applied mathematics in engineering,2018

笔记

  以下是我自己笔记的汇总贴。

如果觉得我的文章对你有用,请随意赞赏