|
|
51CTO旗下网站
|
|
移动端

3.1 信息熵值

《大数据分析:数据挖掘必备算法示例详解》第3章决策树算法,本章重点介绍三个非常经典的决策树算法,分别是 ID3、C45和 CART。在具体讲解本章的算法之前,需要引入信息熵值的概念。本节为大家介绍信息熵值。

作者:张重生来源:机械工业出版社|2017-12-13 17:44

第3章 决策树算法

本章重点介绍三个非常经典的决策树算法,分别是 ID3、C45和 CART。在具体讲解本章的算法之前,需要引入信息熵值的概念。

3.1 信息熵值

Entropy(信息熵值)是 InformationTheory(信息论) 中最核心的概念 /度量方法。信息
论是应用数学 /计算机科学中的重要分支,具有重要的应用。

Entropy(熵)描述的是变量取值的概率的不确定性。不确定性越大,熵值越大。

老师告诉学生,“你有 50%的可能性通过考试,50%的可能性不及格”。学生心里嘀咕:“Hmmm,老师,您这不是外交辞令嘛,说了等于没说”。

老师告诉学生,“你有 80%的可能性通过考试,20%的可能性不及格”。学生心里窃喜:“看来我通过考试的可能性还蛮大的,但是也不是完全确定”。

老师告诉学生,“你 100%会通过考试”。学生心里窃喜:“肯定没问题了”。

50%的可能性 pass&50%的可能性 fail;80%的可能性 pass&20%的可能性 fail;100%的可能性 pass&0%的可能性 fail。这三种情形,第一种最不确定,第二种相对更加确定一
点,第三种是完全确定的。

Entropy(熵)描述的是属性 (某个变量)取值的概率的不确定的程度。


因此,50% -50%的熵最大,不确定性最强;100% -0%的熵最小,它是完全确定的。80% -20%的熵的不确定性小于 50% -50%的情形。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

《ASP.NET AJAX Web 应用开发秘诀(VB版)》

本书详细介绍了AJAX在Web开发上的应用。主要内容包括:ASP.NET AJAX技术概述、实现异步局部更新页面、UpdatePanel编程功能、PageRequestMan...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊