|
|
|
|
移动端

2.5.4 学习率和自适应步长

《深度学习与计算机视觉:算法原理、框架应用与代码实现》本书全面介绍了深度学习及计算机视觉中最基础的知识,并结合最常见的应用场景和大量实例,带领读者进入丰富多彩的计算机视觉领域。作为一本“原理+实践”教程,本书在讲解原理的基础上,通过有趣的实例带领读者一步步亲自动手,不断提高动手能力,而不是枯燥和深奥原理的堆砌。本节为大家介绍学习率和自适应步长。

作者:叶韵来源:机械工业出版社|2017-10-23 17:00

开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享

2.5.4  学习率和自适应步长

在牛顿法中还可以发现一个特点,就是迭代步长是二阶近似的解析解,所以不需要指定学习率。不需要指定学习率从某种角度来说是一个优点,因为如果学习率没有定好,会通过影响迭代步长从而影响迭代效果。下面以最基本的梯度法举例,如图2-51所示。

图2-51中a、b、c图分别是同一个曲线用3种不同的学习率进行梯度下降,图2-51a是学习率过大的情况,这种情况下在迭代过程中很容易因为在一个梯度较大的区域,获得了一个很长的步长导致越过了极值点,甚至进而在别处梯度大的地方再次以一个大步长迭代,最后导致不收敛。图2-51c是学习率过小的情况,虽然最后算法通常能够收敛,但是迭代的步数会非常多,尤其是在梯度接近0的区域。所以一个合适的学习率需要既可以保证收敛,又能保证效率,比如图2-51b。不同学习率对应的收敛曲线如图2-51d所示,合适的学习率通常可以帮助优化收敛到一个较优的最小值(实线);如果学习率过低,这个收敛的过程则会很慢(短线段虚线),而过高的学习率虽然在一开始收敛迅速,后期却常常难以继续收敛(点虚线);如果学习率再高,很可能一开始就不收敛,这个情况图2-51中就没有画出了。总之,一个合适的学习率非常重要,不过困难的地方在于,对于不同的任务,一个最合适的学习率通常是需要进行尝试的。

喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Linux命令、编辑器与Shell编程

本书是目前所能找到的最实用、最全面的Linux指南和参考手册,也是唯一一本提供以下全部内容的书籍: 更好更实用的示例覆盖了实际工作中需...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊