|
|
|
|
移动端

2.5.5 学习率衰减(Learning Rate Decay)

《深度学习与计算机视觉:算法原理、框架应用与代码实现》本书全面介绍了深度学习及计算机视觉中最基础的知识,并结合最常见的应用场景和大量实例,带领读者进入丰富多彩的计算机视觉领域。作为一本“原理+实践”教程,本书在讲解原理的基础上,通过有趣的实例带领读者一步步亲自动手,不断提高动手能力,而不是枯燥和深奥原理的堆砌。本节为大家介绍学习率衰减(Learning Rate Decay)。

作者:叶韵来源:机械工业出版社|2017-10-23 17:01

开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享

2.5.5  学习率衰减(Learning Rate Decay)

根据优化过程在不同阶段的特点,一个大体的思路就是前期使用较大的学习率加速收敛,后期用较小的学习率保证稳定,这就是学习率衰减背后的思想。这里用最常见的按步长衰减学习率的策略为例子,公式如下:

其中lrbase是基础学习率,γ是一个小于1的衰减系数,stepsize是一个触发衰减的阈值,当前迭代的步数除以这个阈值向下取整作为γ的指数。下面来考虑γ=0.1,stepsize=100000,意思就是每迭代100000步,学习率就下降为之前的十分之一。

在这个方法中,步长和衰减系数都是经验值。除了这种按步长衰减的公式,还有按照指数衰减、按倒数衰减、按照多项式衰减等。形式虽然不一样,但是大同小异,都是要一个下降的函数,并且参数是经验值。如果经验不足或者经验值难以确定的时候,自适应学习率的办法才是很多人更想要的。

喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Visual Studio 2005+SQL Server 2005数据库应用系

本书主要介绍采用Visual Studio 2005的C#语言为前台,SQL Server 2005数据库为后台的数据库系统开发技术。 全书分为15章,内容包括走进.NE...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊