|
|
51CTO旗下网站
|
|
移动端

3.3 ID3决策树算法

《大数据分析:数据挖掘必备算法示例详解》第3章决策树算法,本章重点介绍三个非常经典的决策树算法,分别是 ID3、C45和 CART。在具体讲解本章的算法之前,需要引入信息熵值的概念。本节为大家介绍ID3决策树算法。

作者:张重生来源:机械工业出版社|2017-12-13 17:45

【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》

3.3 ID3决策树算法

表 3-1给出了预测飞机是否延误的训练数据,这里预测的是飞机是否会延误,即预测DelayOrNot的取值是 yes或 no。

表 3-1 预测飞机是否延误的训练数据

1)如果只看DelayOrNot一列,这是标签列,其Entropy是

2)如果按照其他某个属性的值将表 3-1中的数据水平分割,如按照 Weather的值进行水平分割。Weather有 Sunny、RainyOrSnowy、Cloudy三种取值。按行分割后,三个子数据集中 DelayOrNot对应值的分布为 2yes2no,4yes2no,3yes1no。对应的三个子数据集中 Delay?OrNot的 Entropy值分别为:

使用 ID3算法,使用信息增量 InfoGain=Info-Infod作为衡量依据,并取***的 InfoGain对应的属性作为***次分割的属性。分别尝试使用 Season、Weather、A_Control、Airline四个属性,对数据进行水平分割,并计算每种分割对应的 Infod。对应的 Infod的值分别为0?694,0?91106,0?789,0?892。可以看到,按 Season属性分割后,Info-Infod的值***,因此,***次分割数据,使用 Season属性。将原始数据水平分割为成如图 3-1所示的三个子数据集,D1,D2 (数据在图中给出),D3。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

16招轻松掌握PPT技巧

16招轻松掌握PPT技巧

GET职场加薪技能
共16章 | 晒书包

289人订阅学习

20个局域网建设改造案例

20个局域网建设改造案例

网络搭建技巧
共20章 | 捷哥CCIE

645人订阅学习

WOT2019全球人工智能技术峰会

WOT2019全球人工智能技术峰会

通用技术、应用领域、企业赋能三大章节,13大技术专场,60+国内外一线人工智能精英大咖站台,分享人工智能的平台工具、算法模型、语音视觉等技术主题,助力人工智能落地。
共50章 | WOT峰会

0人订阅学习

读 书 +更多

SQL Server 2005数据挖掘与商业智能完全解决方案

本书以BI解决方案的体系结构为中心,以SQL Server 2005为载体,将着眼点放在数据挖掘和商业智能上,详细讲解了数据报表、数据分析和数据挖...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客