|
|
|
|
移动端

3.3 ID3决策树算法

《大数据分析:数据挖掘必备算法示例详解》第3章决策树算法,本章重点介绍三个非常经典的决策树算法,分别是 ID3、C45和 CART。在具体讲解本章的算法之前,需要引入信息熵值的概念。本节为大家介绍ID3决策树算法。

作者:张重生来源:机械工业出版社|2017-12-13 17:45

有奖调研 | 1TB硬盘等你拿 AI+区块链的发展趋势及应用调研


3.3 ID3决策树算法

表 3-1给出了预测飞机是否延误的训练数据,这里预测的是飞机是否会延误,即预测DelayOrNot的取值是 yes或 no。

表 3-1 预测飞机是否延误的训练数据

1)如果只看DelayOrNot一列,这是标签列,其Entropy是

2)如果按照其他某个属性的值将表 3-1中的数据水平分割,如按照 Weather的值进行水平分割。Weather有 Sunny、RainyOrSnowy、Cloudy三种取值。按行分割后,三个子数据集中 DelayOrNot对应值的分布为 2yes2no,4yes2no,3yes1no。对应的三个子数据集中 DelayOrNot的 Entropy值分别为:

使用 ID3算法,使用信息增量 InfoGain=Info-Infod作为衡量依据,并取最大的 InfoGain对应的属性作为第一次分割的属性。分别尝试使用 Season、Weather、A_Control、Airline四个属性,对数据进行水平分割,并计算每种分割对应的 Infod。对应的 Infod的值分别为0694,091106,0789,0892。可以看到,按 Season属性分割后,Info-Infod的值最大,因此,第一次分割数据,使用 Season属性。将原始数据水平分割为成如图 3-1所示的三个子数据集,D1,D2 (数据在图中给出),D3。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Windows Forms 编程实战

本书由浅入深地介绍Windows Forms编程的技巧和各种实用方法。本书先详细介绍了菜单、状态条、可复用类库、文件对话框、文本框、按钮、列表...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊