|
|
|
|
移动端

1.1.7 神经网络的第二次寒冬

《深度学习与计算机视觉:算法原理、框架应用与代码实现》本书全面介绍了深度学习及计算机视觉中最基础的知识,并结合最常见的应用场景和大量实例,带领读者进入丰富多彩的计算机视觉领域。本节为大家介绍神经网络的第二次寒冬。

作者:叶韵来源:机械工业出版社|2017-11-16 17:13

有奖调研 | 1TB硬盘等你拿 AI+区块链的发展趋势及应用调研


1.1.7  神经网络的第二次寒冬

虽然BP算法将神经网络带入了实用阶段,可是当时的神经网络仍然存在一些缺陷。首先是神经网络的层数,随着研究的深入,人们发现BP算法的一个缺点是梯度计算存在不稳定的问题。简单来说就是越远离输出层的参数越难以被训练,要么会不变,要么会变化过于剧烈,这被称为梯度消失/爆炸问题,而且层数越多,这个问题越明显。说到这里又要引出一个深度学习的始祖级人物,现居瑞士的德国计算机科学家尤尔根·施米德休(Jürgen Schmidhuber),梯度传播中的消失/爆炸问题正是由他的第一个学生赛普·霍克莱特(Sepp Hochreiter)在毕业论文中第一次正式提出并讨论。不知道是不是因为住的离美国太远,提到深度学习的时候人们往往提到的是和他贡献差不多的另外三巨头辛顿、杨乐昆和本吉奥。而实际上在深度学习领域施米德休也是举足轻重的,他从20世纪90年代就开始研究深度神经网络,从时间上来看他和杨乐昆应该是最早研究深度学习的两个人。他提出的长短期记忆网络(Long-Short Term Memory,LSTM),在语音识别和自然语言处理领域产生了巨大的影响。2016年初靠着AlphaGo大红大紫的公司DeepMind里也有两个创始人都是他的学生。言归正传,一方面BP算法只对浅层网络有效,另一方面两三层的神经网络就已经有了足够强的拟合能力,所以当时应用层面的研究很多都集中在浅层神经网络,对深层网络的了解总体而言知之甚少。

除了浅层的限制,参数过多也成了神经网络被诟病的问题之一。针对一些识别问题,因为底层细节的不直观和过于强大的拟合能力,再加之那个年代很多问题的训练数据量都不大,神经网络的泛化能力确实有隐患,所以很多人认为神经网络就是某种程度上的过拟合,甚至今天很多人还是对深度学习抱有类似的观点。神经网络的调参也是个巨大的问题,因为神经网络的结构让使用者并不关注细节,而只需要关注输入输出,选择诸如隐层数、单元数等参数往往会显得有些无迹可寻,相关的理论研究也乏善可陈,所以调参往往成了一项经验活。另外相对应大量的参数也对计算机的算力提出了要求。除了参数相关的问题,因为BP算法本身依赖于梯度,所以训练陷入局部最小值也成了神经网络的一个大问题。

进入20世纪90年代中期,神经网络的发展又进入了一个相对缓慢的阶段,而那时,一个机器学习领域内的“大神”杀了出来,他就是支持向量机(Support Vector Machine,SVM)的提出者,统计学家弗拉基米尔·万普尼克(Vladimir Vapnik)。万普尼克也是第一批从事人工智能的老一辈研究者,在感知机风靡的年代,他也在那股热潮下做了很多研究,并于1963年提出了原始的SVM。不过那个时候他的SVM和感知机差别并不大,再加上他人在莫斯科,没有产生大的影响。在随后的岁月里,万普尼克一直在莫斯科控制科学研究所潜心研究偏理论的方向,一直做到了研究所计算机部门的老大。1990年,前苏联动荡,万普尼克移居美国加入了贝尔实验室,成了杨乐昆的同事。1995年,万普尼克正式提出了统计学习理论,并将该方法应用到了SVM。虽然广义上来讲,SVM也是个浅层网络,但相比当时其他浅层神经网络,SVM拥有全局最优、调参简单、泛化能力强等优点,并且还有完善的理论支撑。更重要的是,SVM诞生后,在当时的一些诸如手写体识别的问题上一举击败了其他各种浅层神经网络,迅速成了研究的主流。就这样,神经网络进入了第二次寒冬。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Windows编程启示录

主要内容: ● 如何设计像自动售货机那样有效的用户界面。 ● 深入理解窗口和对话框的管理机制。 ● 为什么性能优化与我们在直觉上的理...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊