首页 养生问答 疾病百科 养生资讯 女性养生 男性养生

如何评价斯坦福大学提出SGD动量自调节器YellowFin?

发布网友 发布时间:2022-04-21 09:45

我来回答

1个回答

热心网友 时间:2023-07-29 22:34

Ranger优化器将两个非常新的开发(radam+lookahead)合并到一个单独的优化器中。为了证明它的有效性,我们的团队最近使用Ranger optimizer在fastai全球排名中获得了12个排名记录。

Lookahead是Ranger优化器的一半。它是由著名深度学习研究员杰弗里·辛顿(Geoffrey Hinton)在2019年7月的一篇新论文《前瞻优化:K步进,1步后退》中介绍的。Lookahead受最近神经网络损失面研究的启发,提出了一种新的方法来稳定深度学习的训练和收敛速度。基于radam(corrected Adam)在深度学习方差管理方面的突破,发现将radam+lookahead组合在一起(Ranger)可以产生一个梦想团队,并且可以得到比单个radam更好的优化器。

Ranger optimizer是一个易于使用和高效的单一代码库(在一个循环中加载/保存和更新所有参数)。它被集成到fastai中。Ranger源代码可以直接使用:https://github.com/lessw2020/Ranger-Deep-Learning-Optimizer。

Adam、SGD和前瞻+Adam/SGD在LSTM上的比较

为什么radam和lookahead是互补的

可以说,RADAM为优化器开始训练提供了最好的基础。雷达采用动态整流器根据变化调整Adam的自适应动量。对于当前的数据集,它有效地提供了自动热身,以确保坚实的训练开始。

最近对神经网络的深入探索和深入了解,为今后神经网络的深入研究提供了一个灵感。

“快速调整”以减少“团队在实现快速收敛时所需的大量计算开销。”。

因此,两者都在深度学习优化的不同方面提供了突破,两者的结合具有很高的协同性,可以为您的深度学习效果提供两种改进的最佳效果。因此,寻求更稳定和更稳健的优化方法将继续下去。通过结合两个最新突破(radam+lookahead),Ranger集成有望为深度学习提供另一个进步。

Hinton等人。-“我们通过实验证明,即使在Imagenet、cifar-10/100、神经机器翻译和Penn treebank上设置了默认的超参数设置,lookahead也可以显著提高SGD和Adam的性能。”

因为lookahead具有双向探测设置,所以lookahead可以优化到比SGD更接近最小值的位置。

因此,本文在介绍雷达的基础上,阐述了什么是超前雷达,以及如何将雷达和超前雷达组合成一个单一的优化测距仪,以达到新的高精度。在我测试的前20个时代,我获得了一个新的高准确率,比目前的fastai排名高出1%。

我们可以摆脱SGD和Adam,以及新的深度学习优化器Ranger:radam+lookahead

流浪者的第一次测试是93%

法塔伊,20个时代,92%

更重要的是,任何人都可以使用Ranger,看看它是否提高了你的深度学习结果的稳定性和准确性!

因此,让我们仔细看看驱动Ranger的两个组件:radam和lookahead

1什么是拉丹(亚当纠正)

小结:开发radam的研究人员调查了为什么自适应动量优化器(Adam、rmsprop等)都需要预热,否则在训练开始前它们会陷入一个糟糕/可疑的局部最优状态。

我们可以摆脱SGD和Adam,以及新的深度学习优化器Ranger:radam+lookahead

原因是当优化器在训练开始时没有看到足够的数据来做出准确的自适应动量决策,那么数据的方差将非常大。因此,热身可以在训练开始时减小方差,但即使要确定热身的程度,也需要根据数据集的变化进行手动调整。

因此,修正后的Adam通过使用一个修正函数来确定一个“启发式预热”,该函数基于实际遇到的方差。整流器动态地关闭和打开自适应动量,以便在数据方差稳定之前不会全速跳跃。

这样,就避免了手动热身的需要,训练也自动稳定下来。

一旦方差稳定下来,拉丹就变成了亚当,甚至是新元。因此,拉丹的贡献是在训练的开始。

读者注意到

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com