|
|
51CTO旗下网站
|
|
移动端

2.4.1 数据矩阵与相异性矩阵

《数据挖掘:概念与技术(原书第3版)》第2章认识数据,本章要知道:数据由什么类型的属性或字段组成?每个属性具有何种类型的数据值?哪些属性是离散的,哪些是连续值的?数据看上去如何?值如何分布?有什么方法可以可视化地观察数据,以便更好地理解它吗?能够看出离群点吗?可以度量某些数据对象与其他数据对象之间的相似性吗?洞察数据将有助于其后的分析。本节为大家介绍数据矩阵与相异性矩阵。

作者:范明等译来源:机械工业出版社|2012-12-05 20:26

2.4.1 数据矩阵与相异性矩阵

在2.2节,我们考察了研究某属性X的观测值的中心趋势和散布的方法。那里,我们的对象是一维的,即被单个属性刻画。本节,我们谈论的对象被多个属性刻画。因此,我们需要改变记号。假设我们有n个对象(如人、商品或课程),被p个属性(又称维或特征,如年龄、身高、体重或性别)刻画。这些对象是x1=(x11,x12,…,x1p),x2=(x21,x22,…,x2p),等等,其中xij是对象xi的第j个属性的值。为简单计,以后我们称对象xi为对象i。这些对象可以是关系数据库的元组,也称数据样本或特征向量。

通常,主要的基于内存的聚类和最近邻算法都在如下两种数据结构上运行:

数据矩阵(data matrix)或称对象-属性结构:这种数据结构用关系表的形式或n×p(n个对象×p个属性)矩阵存放n个数据对象:

 

每行对应于一个对象。在记号中,我们可能使用f作为遍取p个属性的下标。

相异性矩阵(dissimilarity matrix)或称对象-对象结构:存放n个对象两两之间的邻近度(proximity),通常用一个n×n矩阵表示:

 

其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量。一般而言,d(i,j)是一个非负的数值,对象i和j彼此高度相似或“接近”时,其值接近于0;而越不同,该值越大。注意,d(i,i)=0,即一个对象与自己的差别为0。此外,d(i,j)=d(j,i)。(为了易读性,我们不显示d(j,i),该矩阵是对称的。)相异性度量的讨论遍及本章的余下部分。

相似性度量可以表示成相异性度量的函数。例如,对于标称数据

 

其中,sim(i,j)是对象i和j之间的相似性。本章的其余部分,我们也对相似性度量进行讨论。

数据矩阵由两种实体或“事物”组成,即行(代表对象)和列(代表属性)。因而,数据矩阵经常被称为二模(two-mode)矩阵。相异性矩阵只包含一类实体,因此被称为单模(one-mode)矩阵。许多聚类和最近邻算法都在相异性矩阵上运行。在使用这些算法之前,可以把数据矩阵转化为相异性矩阵。

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

230人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

87人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 51CTO叶老师

483人订阅学习

读 书 +更多

网管员必读—服务器与数据存储

《网管员必读—服务器与数据存储》全面、系统地介绍了在中、高级网络管理和网络工程实施中两个重要方面的主流技术和应用:硬件服务器和数据...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客