|
|
|
|
移动端

2.3.4 中心极限定理和高维样本距离分布的近似

《深度学习与计算机视觉:算法原理、框架应用与代码实现》第2章 深度学习和计算机视觉中的基础数学知识,本章会尽量从定性的角度讲解一些与深度学习、计算视觉紧密联系的基础数学概念,不一定会很严谨细致,但力求简单、形象。本节为大家介绍中心极限定理和高维样本距离分布的近似。

作者:叶韵来源:机械工业出版社|2017-11-16 18:00

2.3.4  中心极限定理和高维样本距离分布的近似

从图2-27中可以看到,随着维度的增加,在超球体内部的样本到中心距离的分布是呈指数上升趋势的,也就是说在原点附近的样本数量是急速下降的,从图2-27中,x=0.25所示的虚线就能清晰地看到这个趋势。而另一方面,在四维的时候,可以看到分布在单位超球体表面附近的样本已经不是最多的,总之,从二维到四维已经能看到样本总体开始远离中心的趋势,符合上一部分中观察到的结论。那么更高维的情况呢?能否分析出一个很明确的趋势呢?这时候可以考虑借助概率论中经典的中心极限定理,首先简单介绍一下中心极限定理:

对于n个独立同分布变量X1, X2, …, Xn,如果采样分布的期望为μ,方差为σ2,则当n足够大时,样本之和的抽样分布可以近似为均值为nμ,方差为nσ2的正态分布。

根据中心极限定理,可以把均匀分布中的一个样本的每一维都看作是一个独立同分布的样本,到原点的欧式距离的平方则是每一维的值的平方之和,所以当维度足够高时,均匀分布样本到原点距离的平方也近似服从正态分布。

考虑我们的例子,每个维度都是一个-1~1的均匀分布,其方差为:

而求方差的一个公式如下:

其中E(X)为0,所以X2的期望值也就是每一维平方的采样平均值为:

同样,根据方差公式2-21,对于X2的方差有:

所以对于n维空间每一维在-1~1均匀采样的样本,到原点距离的平方服从:
 

描述的分布,而该分布的标准差线性依赖于1/,而均值则线性依赖于1/n,所以标准差和均值的比线性依赖于/n,也就是1/,也就是说随着n趋于∞,标准差和均值的比值是趋于0的。形象理解就是,在高维空间中的超立方体中的均匀采样,每个点到原点的距离都是差不多的。

而且这个结论对于任何独立同分布的情况都是适用的,比如在实际应用中最常见的正态分布,如果每一维都是互相独立的相同的标准分布的话,则n维情况下,样本到原点的距离r服从chi分布(就是卡方分布的开方),其概率密度函数为:

其中Г(x)为Gamma函数。我们把这个分布在n=100,n=1?000和n=10?000的曲线画出来,如图2-28所示。

可以看到,在高维正态分布中,采样点到原点距离都集中在很小的一个“峰”里。除了到原点的距离,在高维空间中,两点之间的距离也会有趋同的趋势,比如我们还是考虑最为常见的正态分布,因为正态分布的对称性,对于每一个维度,两个样本的差就相当于两个相同正态分布下样本的和,而对于正态分布,有如下性质。

考虑两个独立的正态分布以及从中抽取的样本X1和X2:

考虑这两个样本的和Y=X1+X2,有:

也就是说Y服从一个正态分布,其均方差为两个分布的均方差之和,所以两个样本之间的距离和样本到原点的距离一样,也会随着维度的增加渐渐趋同。所以在高维度空间中,距离成了一个不再那么可靠的度量。比如在二维空间中,我们会很直观地认为两个距离很近的样本会有更大概率拥有相同或相近的属性,而在高维空间中,这样的判断就很不可靠了。除了公式的推导,从定性的角度可以理解为,随着维度的增加,每一维度对距离的贡献都变得不再重要,所以在独立分布下,各个维度最后对总距离的贡献的效果都被平均掉了。另一方面也可以理解为,维度虽然增加了,不过采样数量通常不会随着维度的增加而指数增加。所以维度越高,样本在高维空间中是呈现越来越稀疏的趋势,定性来看就是距离其他样本越来越远了。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

C++编程你也行

本书是一本优秀的C++教材,内容包括:基础类型、操作符和简单变量,循环和决策,命名空间和C++标准库,用C++编写函数,行为、序列点和求值...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊