|
|
|
|
移动端

1.2.1 计算机视觉简史

《深度学习与计算机视觉:算法原理、框架应用与代码实现》本书全面介绍了深度学习及计算机视觉中最基础的知识,并结合最常见的应用场景和大量实例,带领读者进入丰富多彩的计算机视觉领域。本节为大家介绍计算机视觉简史。

作者:叶韵来源:机械工业出版社|2017-11-16 17:16

开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享

1.2  给计算机一双眼睛——计算机视觉

在深度学习出现之前,计算机视觉就像是设计精妙的火箭,缺少一个强大的助推器。

1.2.1  计算机视觉简史

都说“眼睛是心灵的窗户”,乍一听只觉得是一个很好听的比喻。仔细想想,视觉对人类真的很重要。佛学中说五识,指的是眼耳舌鼻身,事实上这也是古人对人的感官重要性的大致排名,视觉排名第一。现代的科学研究也表明,人类的学习和认知活动中,有80%~85%都是通过视觉完成的。也就是说,视觉是人类感受和理解这个世界的最主要手段。视觉对人类如此重要,人工智能里当然不能少了视觉相关的领域,即计算机视觉。

从人工智能诞生起,视觉相关的应用就一直是该领域内科学家偏爱的方向,如前面提到过的感知机。感知机最早拿来演示的应用就是通过20×20像素的传感器用于字母识别。计算机视觉正式成为一个学科,要追溯到1963年美国计算机科学家拉里·罗伯茨(Larry Roberts)在MIT的博士毕业论文《Machine Perception of Three-Dimensional Solids》,在这篇论文中,拉里根据加拿大科学家大卫·休伯尔(David Hubel)和瑞典科学家托斯坦·维厄瑟尔(Torsten Wiesel)从1958年起对猫视觉皮层的研究,提出在计算机的模式识别中,和生物的识别类似,边缘是用来描述物体形状的最关键信息。拉里在论文中通过对输入图像进行梯度操作,进一步提取边缘,然后在3D模型中提取出简单形状结构,然后利用这些结构像搭积木一样去描述场景中物体的关系,最后获得从另一角度看图像物体的渲染图。在这篇论文中,从二维图像恢复图像中物体的三维模型的尝试,正是计算机视觉和传统图像处理学科思想上最大的不同:计算机视觉的目的是让计算机理解图像的内容。所以这算是计算机视觉相关的最早的研究。

1966年,当时在MIT人工智能实验室的明斯基发起了一个“暑期视觉项目”(The Summer Vision Project)。目的是集中暑假的闲散劳动力解决计算机视觉问题,力争产出模式识别研发的里程碑式的结果。当然这是暑期视觉项目的文档里写的,据一个流传甚广的说法,最初明斯基只是让组里一个叫杰拉德·杰伊·萨斯曼的本科生(Gerald Jay Sussman,后来的MIT教授)去把计算机和相机连起来,并尝试用暑假的时间实现让计算机描述看到了什么。当然这个项目没有成功,而计算机视觉作为一个专门研究课题却出现在了历史的舞台上。

从有了计算机视觉的相关研究开始,一直到20世纪70年代,人们关心的热点都偏向图像内容的建模,如三维建模、立体视觉等。比较有代表性的弹簧模型(Pictorial Structure,如图1-6所示)和广义圆柱体模型(Generalized Cylinder)就是在这个时期被提出来的。可以看到,在这个时期,无论是弹簧模型还是广义圆柱体模型,其实都还是沿着拉里的搭积木的思路。

到了20世纪70年代末,计算机视觉领域的一位超重量级人物开始发力了,他就是英国人戴维·马尔(David Marr)。马尔是一名神经生理学家和心理学家,在20世纪70年代以前他并没有专门研究过视觉。从1972年开始,他转向研究视觉处理并于1973年受到明斯基的邀请进入了MIT人工智能实验室工作。1977年,马尔被检查出患了白血病,这个突如其来的打击并没有让他陷入消沉,而是迫使他开始整理自己在视觉理论框架上的研究。1979年夏天,马尔完成了自己的视觉计算理论框架的梳理,并初步整理成一本书。1980年,马尔获得了MIT的终身教职,成为了教授。不过很不幸的是就在该年冬天,年仅35岁的马尔因白血病去世。

马尔去世后,在他的学生的帮助下,MIT出版社于1982年出版发行了他在1979年完成的书《视觉计算理论》(Vision: A computational investigation into the human representation and processing of visual information)。这本书中马尔提出了对计算机视觉非常重要的观点:人类视觉的主要功能是通过大脑进行一系列处理和变换,来复原真实世界中三维场景,并且这种神经系统里的信息处理过程是可以用计算的方式重现的。马尔认为这种重现分为三个层次:理论、算法和硬件实现,并且算法也分为基本元素(点、线、边缘等)→2.5维→3维三个步骤。尽管从今天来看马尔的理论存在着一些不合理的地方,但在当时却开启了计算机视觉作为一门正式学科的研究。从1987年开始,国际计算机视觉大会(IEEE International Conference on Computer Vision,ICCV)开始给计算机视觉领域做出重要贡献的人颁发奖项,奖项名字就叫做马尔奖。

在视觉计算理论提出后,计算机视觉在20世纪80年代进入了最蓬勃发展的一个时期。主动视觉理论和定性视觉理论等都在这个时期被提出,这些理论认为人类的视觉重建过程并不是马尔理论中那样直接,而是主动的,有目的性和选择性的。同时从20世纪80年代起,这个学科开始慢慢脱胎于神经科学,更多偏重计算和数学的方法开始发展起来,相关的应用也变得更加丰富。著名的图像金字塔和Canny边缘检测算法在这个时期被提出,图像分割和立体视觉的研究在这个时期也蓬勃发展,当然还有和本书更紧密的基于人工神经网络的计算机视觉研究,尤其是模式识别的研究也伴随着人工神经网络的第一次复兴变得红火起来。

进入20世纪90年代,伴随着各种机器学习算法的全面开花,机器学习开始成为计算机视觉,尤其是识别、检测和分类等应用中一个不可分割的重要工具。各种识别和检测算法迎来了大发展。尤其是人脸识别在这个时期迎来了一个研究的小高潮。各种用来描述的图像特征的算子也不停地被发明出来,如耳熟能详的SIFT算法就是在20世纪90年代末被提出的。另外伴随着计算机视觉在交通和医疗等工业领域的应用越来越多,其他一些的基础视觉研究方向,如跟踪算法、图像分割等,在这个时期也有了一定的发展。

进入21世纪之后,计算机视觉已经俨然成为计算机领域的一个大学科了。国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)和前面提到的ICCV等会议已经是人工智能领域,甚至是整个计算机领域内的大型盛会,甚至出现了一些新的子方向,如计算摄影学(Computational Photography)等。在传统的方向上基于特征的图像识别成了一个大热门,斯坦福大学的李菲菲教授牵头创立了一个非常庞大的图像数据库ImageNet。ImageNet里包含1?400万张图像,超过20?000个类别。基于这个数据库,自2010年开始,每年举办一次的大规模视觉识别挑战比赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),采用了ImageNet里1?000个子类目的超过120万张图片作为数据,参赛者来自世界各国的大学、研究机构和公司,成为了计算机视觉领域最受关注的事件之一。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Fedora Core 5 Linux架站与网管

Linux出色的网络功能堪称当今操作系统中的佼佼者,无论在功能还是在支持能力上都有令人满意的表现。Linux内置的多个服务器,几乎包含了目前...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊