|
|
|
|
移动端

1.4 数据分类问题与回归问题的区别与联系

《大数据分析:数据挖掘必备算法示例详解》第1章数据分析绪论,本章主要介绍预备知识,即在进行数据分析前,读者需要了解的知识与背景。本节为大家介绍数据分类问题与回归问题的区别与联系。

作者:张重生来源:机械工业出版社|2017-12-13 17:22

技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!


1.4 数据分类问题与回归问题的区别与联系

在数据分析领域,回归问题和分类问题是容易混淆的问题。当待预测的属性是顺序型数据 (Ordinaldata)时,回归问题和分类问题是可以互相转换的。但是,当待预测的属性是连续的数值型数据 (Numericaldata)时,只能使用回归预测算法。当待预测的属性是连续的分类型数据 (Categoricaldata),且待预测的属性的取值之间没有数值大小关系时 (不能通过数值的大小进行比较该属性上的取值),只能用分类算法。

具体而言,回归问题和分类问题是否可以互相转换,取决于数据中要预测的属性 (标签列 /类别列)的类型,需要判断标签列 /类别列的那个属性的类型是数值型数据 (Numericaldata)、分类型数据 (Categoricaldata),还是顺序型数据 (Ordinaldata)。

下面举例说明。

(1)只能是回归问题而不能是分类问题的例子

股票价格的预测,该属性是一个连续型的数值型数据 (Numericaldata)。该属性上的数值是连续的,随机的,没有明确的归类 /类别关系,没有下限和上限。

此时只能用回归算法 (模型)拟合股票的价格,而不能用分类算法。

(2)只能是分类而不能是回归问题的例子

如果待预测的属性本身并不是 Ordinal类型的,而是分类型数据 (Categoricaldata),而且该属性上的各种取值之间没有大小、等级上的数值单调关系。譬如,待预测的属性如果是不同疾病的类型: “心血管病” “肺病” “外伤”,这些属性对应的值之间并没有顺序、大小、等级之分,这种情况下,就只能是分类问题,而不能是回归问题。

(3)回归问题和分类问题可以相互转换的例子

当待预测的属性本身是顺序型时,回归问题和分类问题可以相互转换。顺序型属性的举例:网购的星级评分,产品的等级,酒店的排名。

Ordinal类型 (顺序型)的属性,其取值有顺序、大小的关系,如 5星级 >4星级 >3星级 >2星级 >1星级。此时,回归问题和分类问题可以相互转换。

总之,回归问题和分类问题是否能相互转换,关键在于标签列 /类别列是 Ordinal类型的属性、数值型类型的属性,还是分类型的属性。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

实时UML与Rational Rose RealTime建模案例剖析

本书将实时系统、实时统一建模语言、实时系统的统一开发过程和Rational Rose RealTime建模环境有机地结合起来,以案例为基础,系统地介绍了...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊