|
|
51CTO旗下网站
|
|
移动端

2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

《数据挖掘:概念与技术(原书第3版)》第2章认识数据,本章要知道:数据由什么类型的属性或字段组成?每个属性具有何种类型的数据值?哪些属性是离散的,哪些是连续值的?数据看上去如何?值如何分布?有什么方法可以可视化地观察数据,以便更好地理解它吗?能够看出离群点吗?可以度量某些数据对象与其他数据对象之间的相似性吗?洞察数据将有助于其后的分析。本节为大家介绍度量数据散布:极差、四分位数、方差、标准差和四分位数极差。

作者:范明等译来源:机械工业出版社|2012-12-05 19:55

2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

现在,我们考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。

1.极差、四分位数和四分位数极差

开始,让我们先学习作为数据散布度量的极差、分位数、四分位数、百分位数和四分位数极差。

设x1,x2,…,xN是某数值属性X上的观测的集合。该集合的极差(range)是最大值(max())与最小值(min())之差。

 
图2.2 某属性X的数据分布图。这里绘制的分位数是四分位数。
3个四分位数把分布划分成4个相等的部分。第2个四分位数对应于中位数

假设属性X的数据以数值递增序排列。想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集,如图2.2所示。这些数据点称做分位数。分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(我们说“基本上”,因为可能不存在把数据划分成恰好大小相等的诸子集的X的数据值。为简单起见,我们将称它们相等。)给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0<k<q。我们有q-1个q-分位数。

2-分位数是一个数据点,它把数据分布划分成高低两半。2-分位数对应于中位数。4-分位数是3个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称它们为四分位数(quartile)。100-分位数通常称做百分位数(percentile),它们把数据分布划分成100个大小相等的连贯集。中位数、四分位数和百分位数是使用最广泛的分位数。48

四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作Q1,是第25个百分位数,它砍掉数据的最低的25%。第3个四分位数记作Q3,是第75个百分位数,它砍掉数据的最低的75%(或最高的25%)。第2个四分位数是第50个百分位数,作为中位数,它给出数据分布的中心。

第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为

  

例2.10 四分位数极差。四分位数是3个值,把排序的数据集划分成4个相等的部分。例2.6的数据包含12个观测,已经按递增序排序。这样,该数据集的四分位数分别是该有序表的第3、第6和第9个值。因此,Q1=47000美元,而Q3=63000美元。于是,四分位数极差为IQR=63000-47000=16000美元。(注意,第6个值是中位数52000美元,尽管这个数据集因为数据值的个数为偶数有两个中位数。)

2.五数概括、盒图与离群点

对于描述倾斜分布,单个散布数值度量(例如,IQR)都不是很有用。看一看图2.1的对称和倾斜的数据分布。在对称分布中,中位数(和其他中心度量)把数据划分成相同大小的两半。对于倾斜分布,情况并非如此。因此,除中位数之外,还提供两个四分位数Q1和Q3更加有益。识别可疑的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5×IQR处的值。

因为Q1、中位数和Q3不包含数据的端点(例如尾)信息,分布形状的更完整的概括可以通过同时也提供最高和最低数据值得到。这称做五数概括。分布的五数概括(five-number summary)由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成,按次序Minimum,Q1,Median,Q3,Maximum写出。

盒图(boxplot)是一种流行的分布的直观表示。盒图体现了五数概括:

盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。

中位数用盒内的线标记。

盒外的两条线(称做胡须)延伸到最小(Minimum)和最大(Maximum)观测值。

当处理数量适中的观测值时,值得个别地绘出可能的离群点。在盒图中这样做:仅当最高和最低观测值超过四分位数不到1.5×IQR时,胡须扩展到它们。否则,胡须在出现在四分位数的1.5×IQR之内的最极端的观测值处终止,剩下的情况个别地绘出。盒图可以用来比较若干个可比较的数据集。

 
图2.3 在给定的时间段中AllElectronics的4个部门
销售的商品单价数据的盒图

例2.11 盒图。图2.3给出在给定的时间段AllElectronics的4个部门销售的商品单价数据的盒图。对于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100美元。注意,该部门的两个边远的观测值被个别地绘出,因为它们的值175和202都超过IQR的1.5倍,这里IQR=40。

盒图可以在O(nlogn)时间内计算。依赖于所要求的质量,近似盒图可以在线性或子线性时间内计算。

3.方差和标准差

方差与标准差都是数据散布度量,它们指出数据分布的散布程度。低标准差意味数据观测趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中。50

数值属性X的N个观测值x1,x2,…,xN的方差(variance)是:

 

其中,x是观测的均值,由(2.1)式定义。观测值的标准差(standard deviation)σ是方差σ2的平方根。

例2.12 方差和标准差。在例2.6中,使用(2.1)式计算均值,我们得到x=58000美元。为了确定该例子数据集的方差和标准差,我们置N=12,使用(2.6)式得到:

 
 

作为发散性的度量,标准差σ的性质是:

σ度量关于均值的发散,仅当选择均值作为中心度量时使用。

仅当不存在发散时,即当所有的观测值都具有相同值时,σ=0;否则,σ>0。

重要的是,一个观测一般不会远离均值超过标准差的数倍。精确地说,使用不等式,可以证明最少 的观测离均值不超过k个标准差。因此,标准差是数据集发散的很好指示器。

大型数据库中方差和标准差的计算是可伸缩的。

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

230人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

87人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 51CTO叶老师

483人订阅学习

读 书 +更多

超级网管员——网络服务

本书全面介绍了Windows Server 2003 R2中最常用的各种服务,包括域名服务、动态IP地址服务、Windows名称服务、活动目录服务、Web服务、FTP...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客