|
|
51CTO旗下网站
|
|
移动端

1.1 理解数据中字段的类型是数据分析的重要前提

《大数据分析:数据挖掘必备算法示例详解》第1章数据分析绪论,本章主要介绍预备知识,即在进行数据分析前,读者需要了解的知识与背景。本节为大家介绍理解数据中字段的类型是数据分析的重要前提。

作者:张重生来源:机械工业出版社|2017-12-13 17:19

第1章 数据分析绪论

本书聚焦于数据分析相关的技术,尤其是数据分类与预测的相关算法原理与实践,包括12个数据分类算法 10种从二分类到多分类的算法,及多种属性选择、数据选择、集成学习算法,以及不均衡数据分类的算法。

本章主要介绍预备知识,即在进行数据分析前,读者需要了解的知识与背景。

1.1 理解数据中字段的类型是数据分析的重要前提

进行数据分析时,必须首先确定数据的类型,然后才能采用对应的分析算法。因此,判断数据的类型是进行数据分析的重要前提。计算机中的数据可以分为数值型数据 (Numericaldata)、分类型数据 (Categoricaldata)和顺序型数据 (Ordinaldata)。

数值型数据通常指通过阿拉伯数字表示的数据,如工资、价格、数量等数字型数值。数值型数据可以细分为连续型数值和离散型数值,离散型数值的取值只能在若干离散的点上,例如,年龄的取值在 1,2,3,…,20,21,…这些点上;年份的取值只能在 …,2015,2016,2017,…这些离散的点上。连续型数值的取值可以是一个范围内的任意一个值,例如,每升汽油的价格可以是(0,20]内的任意一个数值;又如,学生的身高、体重。在超市里购买的商品的总价格是一个连续型的数值,而所购商品的总数量是离散型的数值。

分类型数据是指只能归属于某一类别的数据,例如,性别只能是男和女;学历层次只能是小学、初中、高中、中专、大专、本科、硕士、博士等中的一种;填表时,党派只能选择群众、无党派人士、中共党员、八个民主党派等中的一种;医生诊断病人的疾病时,最后必须用一个固定的名称来表示患者的疾病,诊断的最终结果可以分为正常人和病人,而病人又可以细分为各种疾病类型,如感冒、高血压、心脏病、荨麻疹等。又如,天气的类型、运动的类型、水果的名称等。分类型数据的一个特例是人的名字,因为每个人都有一个名字,多数情况下通过人名可以辨认出 (identify) 该人。为了避免重名的情况,在做数据分析时通常用唯一 (unique)的 ID表示一个人的名字 /身份。例如,进行人脸识别时,需要根据人脸的图像数据识别出图像中的人物的名字 /身份,此时,人物的名字 /身份 (ID) 就是一个分类型的数据。

顺序型数值是量化的、表示有序级别的数据 (级别的值越大越好,或越小越好)。例如,网购 /网络预订时对商品 /酒店的评分等级分为一星、二星、三星、四星、五星;我们对中国移动 10086客服的评价等级分为 10、9、8、7、6、5、4、3、2、1;产品的等级分为一级、二级、三级。

进行数据分析,尤其是数据的分类与预测时,必须首先判定 /观察数据中各属性的类型。因为,很多数据分析算法只适用于全部是数值型属性的数据 (除了标签列 /类别列之外),而不支持包含有分类型属性的数据 (除了标签列 /类别列之外)。如果非标签列的属性中包含了字符型 /字符串型的分类型属性 (例如,字符串型的商品类别、名称、姓名等),那么,必须使用适用于字符串型分类属性的数据分类算法,或者将字符串式的分类型属性合理地转换为数值型属性数据后,再使用相应的分类算法。

需要说明的是,某些情况下,有些属性既可以认为是分类型的,也可以看作是顺序型的。例如,网购商品的评价只有五个星级,可以认为该属性既是分类型又是顺序型的。相反,如果某分类型的属性是用字符串表示的,譬如,姓名或 ID,不同种类的疾病,此时该属性只能看作分类型的属性,而不是当作是顺序型的属性。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

超级网管员——网络安全

本书全面深入地介绍网络安全的配置与实现技术,包括系统管理、用户账户、病毒防御、灾难恢复、文件备份、安全策略、注册表等服务器安全,用...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊