|
|
51CTO旗下网站
|
|
移动端

2.5.5 学习率衰减(Learning Rate Decay)

《深度学习与计算机视觉:算法原理、框架应用与代码实现》第2章 深度学习和计算机视觉中的基础数学知识,本章会尽量从定性的角度讲解一些与深度学习、计算视觉紧密联系的基础数学概念,不一定会很严谨细致,但力求简单、形象。本节为大家介绍学习率衰减(Learning Rate Decay)。

作者:叶韵来源:机械工业出版社|2017-11-16 18:26

2.5.5  学习率衰减(Learning Rate Decay)

根据优化过程在不同阶段的特点,一个大体的思路就是前期使用较大的学习率加速收敛,后期用较小的学习率保证稳定,这就是学习率衰减背后的思想。这里用最常见的按步长衰减学习率的策略为例子,公式如下:

其中lrbase是基础学习率,γ是一个小于1的衰减系数,stepsize是一个触发衰减的阈值,当前迭代的步数除以这个阈值向下取整作为γ的指数。下面来考虑γ=0.1,stepsize=100000,意思就是每迭代100000步,学习率就下降为之前的十分之一。

在这个方法中,步长和衰减系数都是经验值。除了这种按步长衰减的公式,还有按照指数衰减、按倒数衰减、按照多项式衰减等。形式虽然不一样,但是大同小异,都是要一个下降的函数,并且参数是经验值。如果经验不足或者经验值难以确定的时候,自适应学习率的办法才是很多人更想要的。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

网络管理员考试全真模拟试题与解析

本书是按照全国计算机技术与软件专业技术资格(水平)考试《网络管理员考试大纲》的要求,参照《网络管理员教程》及近年来考试试题编写的。...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊