前言
总结读过的深度学习优化算法相关论文、书籍与资源。论文按结构分为算法型(提出一种新的优化器)、分析型(对优化算法进行收敛性分析或进行对比实验等等)与综述型。前两者同属研究型论文,按照以下三个标准评分,每项均为0到10(参考了如何判断(你自己的)研究工作的价值):
- N(novelty):创新性,在之前的研究上有哪些新意
- R(reproducibility):可复现性,论文idea能否复现?实际任务中能否达到论文中的效果?
- V(value):idea的价值,论文对于怎样的问题研究有着怎样的推进?
而综述型论文只打一个总体分。(我尽量按最后更新时间排序)
综述型
点击展开简介与评语
小而精的一篇survey。(14 pages)
点击展开简介与评语
经典的关于优化算法理论分析的一篇综述,GD与SGD分析的非常透,关于其后续改进介绍了Noise Reduction的一些方法,还介绍了一些二阶方法,可惜的是自适应的方法介绍的不多。总体而言算是相当扎实的一篇综述了。(95 pages)
- Gradient Descent based Optimization Algorithms for Deep Learning Models Training,Jiawei Zhang,arXiv,2019
点击展开简介与评语
比较丰富地总结了若干优化器,演进历程比较清晰,有介绍各个算法的优缺但是缺陷的分析与改进讲的不深入,也没有引用比较理论的分析文献。总体而言算得上是一篇不错的introduction。(25 pages)
点击展开简介与评语
感觉全文的重点在于介绍深度学习优化中的挑战与对策,缺点就是讨论的话题太多了,每一部分都有点泛泛而谈,不过就250+的参考文献而言,这确实是一篇“综述”!(60 pages)
点击展开简介与评语
关于经典梯度下降与SGD收敛性能的一个小汇总,近端梯度下降讲得可以。(21 pages)
算法型
- (HB) Some methods of speeding up the convergence of iteration methods,Boris T. Polyak,USSR Computational Mathematics and Mathematical Physics,Volume 4 Issue 5 Pages 1-17,1964
$N=9,R=10,V=10$
点击展开简介与评语
首次将动量项引入到SGD中,提出了HB方法并证明了其在Lipschitz光滑+强凸情况下的收敛速度。
- Optimal Distributed Online Prediction Using Mini-Batches,Ofer Dekel et al,Journal of Machine Learning Research Volume 13,2012
$N=8,R=7,V=9$
点击展开简介与评语
分析了Mini-Batch的思想,介绍了Mini-Batch SGD在在线学习中的应用
分析型
资源
这部分就不评分了hhh
- (Lecture)Linearly-convergent Stochastic Gradient Algorithms,Francis Bach,AIME@CZ - Czech workshop on applied mathematics in engineering,2018
笔记
以下是我自己笔记的汇总贴。