|
|
|
|
移动端

2.3.5 数据实际的维度

《深度学习与计算机视觉:算法原理、框架应用与代码实现》第2章 深度学习和计算机视觉中的基础数学知识,本章会尽量从定性的角度讲解一些与深度学习、计算视觉紧密联系的基础数学概念,不一定会很严谨细致,但力求简单、形象。本节为大家介绍数据实际的维度。

作者:叶韵来源:机械工业出版社|2017-11-16 18:03

2.3.5  数据实际的维度

前面列举的高维度例子,数据的每个维度间都是互相独立,然而这并非大多数实际应用中的情况,在实际的应用中,数据的每个维度之间通常都会有相关性,而这种相关性通常会让高维的“诅咒”不再那么可怕,下面先来看一个非常简单的二维例子,如果一个协方差矩阵为

中心在原点的二维正态分布,50个采样如图2-29所示。

可以看到,样本其实分布在y=x所在的直线附近,所以如果把每个样本都投影到y=x所在的直线的话,就相当于把二维降到了一维,而降维后的样本也是可以近似描述原始的分布的。这种情况在高维空间中也是很常见的,因为样本本身的相关性,所以一个几千或者几万维的数据,很可能实际用一个几百维的数据就可以近似描述了。

上面提到的是统计相关性只是一个方面,再来看另一个简单的例子,考虑一个二维分布,是由1-(x-0.3)2-(y-0.7)2再加上一个很小的噪声产生,如图2-30所示。

理所当然的,这样的样本可以用产生这些样本的曲面近似描述,也就是f(x,y)=1-(x-0.3)2-(y-0.7)2,所以实际数据的维度也是不到三维的,更近一步,如果样本是三维空间中的一条直线加上小噪声产生的,那么理所当然的这些样本可以被直线近似描述,实际的维度只有1。所以虽然高维的“诅咒”听起来非常可怕,但实际上更常见的情况是,数据常常是在一个等效维度更低的子区域中。

除了这些抽象的样本,实际应用中接触到的样本更是如此,比如我们来考虑一个100×100分辨率的灰度图像,每个像素的取值为0~255,则可以看作是一个10000维的数据,每一维度的取值为0~255。如果每个像素都是服从均匀随机分布并且互相独立,则可能的图像样本一共有25610000个,在这种情况下,我们看到的图像大多会是如图2-31a所示的情况。

而在实际生活中看到的图像,如果缩放到100×100分辨率的灰度照片的样本数量,则会远小于25610000,比如图2-31b中的例子。这也是一种相关性的表现,比如2-31b中海鸟身上的像素,因为毛色较纯,一个白色像素周围的像素通常来说也会是偏白色的,这就是一种正的相关性。我们视觉能识别的图像,其实背后隐含的就是一种空间上的相关性。所以相对于10000维的空间来说,能被表示成人类可识别图像的100×100分辨率灰度图,只是在这10000维空间里的一个非常小的子区域内。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Ajax经典案例开发大全

针对Ajax技术的日益流行,本书对Ajax技术的典型应用进行了归纳总结,基本上覆盖了Ajax技术应用的典型场景。书中共有45个实例,分为9章:动...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊