|
|
51CTO旗下网站
|
|
移动端

1.6 数据分析算法简介

《大数据分析:数据挖掘必备算法示例详解》第1章数据分析绪论,本章主要介绍预备知识,即在进行数据分析前,读者需要了解的知识与背景。本节为数据分析算法简介。

作者:张重生来源:机械工业出版社|2017-12-13 17:24

1.6 数据分析算法简介

数据分类的问题通常分为两个阶段:在训练数据 (每行数据都有类别 /标签)上的分类模型训练阶段,以及使用该分类模型在测试数据 (每行数据都没有类别 /标签) 上进行预测的阶段。

从 1986年 RossQuinlan发明的 ID3(IterativeDichotomiser3)算法,到 1993年他提出的C45算法,再到 1995年 Vapnik和 Cortes发表的 SVM (SupportVectorMachine/networks)算法,1999年的 Friedman的 GBDT(StochasticGradientBoostingTrees) 算法,到 2003年 Fre
und的 AdaBoost(AdaptiveBoosting)算法,再到 2006年 Guang-BinHuang的 ELM (Extremelearningmachines)算法,到 2009年前后产生的 SRC (SparseRepresentation-basedClassification)分类算法,几十年来,机器学习领域已经产生了数十种数据分类算法。

然而,直到今天,计算机领域并没有产生一个能够绝对胜过其他算法的分类算法。相反,在不同的数据和应用中,各种分类算法有不同准确率的表现 (performance)。譬如,在某些数据上,A算法和 B算法训练的分类模型可能取得最高的准确率;而在另外一些数据上,C算法或 D算法却能取得最高的预测准确率。由于没有一个算法能够绝对胜过其他算法,导致人们在实际应用中总是需要结合具体的应用和数据,选择最合适该数据的分类算法及参数,或者是若干分类算法的组合,以期在该数据上学习得到的分类模型能够达到最高的预测准确率。现在,对于多数大数据分析 /数据挖掘领域的研究人员而言,设计一种新的、高准确率的分类算法是非常困难的事情。而如何选择最适合某个具体数据的分类算法或若干算法的组合,已经上升为一种极其重要的技术。事实上,很多研究人员的工作,并没有专注于设计全新的分类算法,而基本上都是基于某一种或某几种现有的分类算法,进行改进或组合 (集成学习),或者是优化分类算法的流程,如增加属性选择或数据选择的步骤,或者是改进收敛的条件 /限制。

根据文献介绍,结合作者的切身使用经验,GBDT、RandomForest、LibSVM、ELM整体上是分类准确度最高的 4个算法。为了达到最佳的分类准确率,这 4个算法都需要进行调参。调参时,通常将整个训练数据细分为训练数据 Tr和验证数据 Va,在 Tr上 (使用不同的参数)训练分类模型,并在 Va上进行验证;重复该过程,直到得到一组能在 Va上达到最高分类准确率的参数。调参的过程通常是极其耗时的。例如,如果不需要调参,GBDT是最快的算法,但是,加上调参步骤之后,其所需的运行时间会增加数十倍,甚至更多。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

非常网管——网络工程案例

本书面向企业网络应用需求,详细介绍了Windows网络互联解决方案、中小企业共享上网解决方案、基于ISA Server 2006的代理服务器与防火墙解决...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊