Notes on Optimization Algorithms in Deep Learning

前言

总结读过的深度学习优化算法相关论文、书籍与资源。论文按结构分为算法型（提出一种新的优化器）、分析型（对优化算法进行收敛性分析或进行对比实验等等）与综述型。前两者同属研究型论文，按照以下三个标准评分，每项均为0到10（参考了如何判断（你自己的）研究工作的价值）：

而综述型论文只打一个总体分。（我尽量按最后更新时间排序）

An overview of gradient descent optimization algorithms，Sebastian Ruder，arXiv，2017

点击展开简介与评语

小而精的一篇survey。（14 pages）

Optimization Methods for Large-Scale Machine Learning，Léon Bottou et al，SIAM Review，2018

点击展开简介与评语

经典的关于优化算法理论分析的一篇综述，GD与SGD分析的非常透，关于其后续改进介绍了Noise Reduction的一些方法，还介绍了一些二阶方法，可惜的是自适应的方法介绍的不多。总体而言算是相当扎实的一篇综述了。（95 pages）

Gradient Descent based Optimization Algorithms for Deep Learning Models Training，Jiawei Zhang，arXiv，2019

点击展开简介与评语

比较丰富地总结了若干优化器，演进历程比较清晰，有介绍各个算法的优缺但是缺陷的分析与改进讲的不深入，也没有引用比较理论的分析文献。总体而言算得上是一篇不错的introduction。（25 pages）

Optimization for deep learning: theory and algorithms，Ruoyu Sun，arXiv，2019

点击展开简介与评语

感觉全文的重点在于介绍深度学习优化中的挑战与对策，缺点就是讨论的话题太多了，每一部分都有点泛泛而谈，不过就250+的参考文献而言，这确实是一篇“综述”！（60 pages）

点击展开简介与评语

关于经典梯度下降与SGD收敛性能的一个小汇总，近端梯度下降讲得可以。（21 pages）

(HB) Some methods of speeding up the convergence of iteration methods，Boris T. Polyak，USSR Computational Mathematics and Mathematical Physics，Volume 4 Issue 5 Pages 1-17，1964 $N=9,R=10,V=10$

点击展开简介与评语

首次将动量项引入到SGD中，提出了HB方法并证明了其在Lipschitz光滑+强凸情况下的收敛速度。

Optimal Distributed Online Prediction Using Mini-Batches，Ofer Dekel et al，Journal of Machine Learning Research Volume 13，2012 $N=8,R=7,V=9$

点击展开简介与评语

分析了Mini-Batch的思想，介绍了Mini-Batch SGD在在线学习中的应用

这部分就不评分了hhh

（Lecture）Linearly-convergent Stochastic Gradient Algorithms，Francis Bach，AIME@CZ - Czech workshop on applied mathematics in engineering，2018

以下是我自己笔记的汇总贴。