|
|
|
|
移动端

序言

《大数据分析:数据挖掘必备算法示例详解》本书详细介绍了大数据分析,尤其是数据分类相关算法的原理及实现 细节,并给出了每个算法的编程实例。本节为v。

作者:张重生来源:机械工业出版社|2017-12-13 15:49

年前最后一场技术盛宴 | 1月27日与京东、日志易技术大咖畅聊智能化运维发展趋势!


序言

最近几年,出现了一个新的职业 “数据科学家” (datascientist),国外对于 scientist的称呼,不如中文语境中那么高深和神秘,只要是掌握了科学的方法去做事的就可以称为scientist。所谓数据科学家,其实就是指那些能采用科学方法、运用数据挖掘工具寻找新的数据规律的工程师。所谓科学方法就是指提出假设、精心设计实验、验证假设、形成结论的过程,科学方法可以通过训练而掌握。有些媒体的调查研究甚至认为,数据科学家的产业缺口巨大。

2016年 2月,国家教育部设立了 “数据科学与大数据技术” 这一新兴本科专业,并批准了北京大学等三所高校的申请。其他高校也跃跃欲试,纷纷成立大数据学院或者研究院,大有形成大气候的趋势。2016年 7月,我在人大也组织了一场 “数据科学” 学科建设研讨会,邀请一批中外专家对数据科学学科发展和专业进行研讨,专家们研讨后的一致意见是:办专业正当其时,说学科为时尚早。一方面,认同社会对数据科学家的需求巨大,应支持高校结合各自的特点举办各种类型的大数据专业,另一方面,又必须认识到,作为一门学科的核心科学问题和基础科学理论还不清楚,谈论数据科学还需要谨慎。我个人以为,这样的观点是符合实际情况的。

因此,当下的当务之急就是弄清楚数据科学专业的课程设置,一套优秀的、理论与实践并重的数据科学领域的教材是重中之重、也是当务之急。

从对数据科学家这一职业的描述中可以看到,掌握数据挖掘与数据分析的工具应该是这个职业从业者的基本要求,因此在教学课程安排上,数据挖掘、数据分析必然是需要着重加强的部分。在数据挖掘的经典内容中,无论如何遴选其内容,数据分类都是必不可少的。而本书就是一本聚焦大数据分析,尤其是数据分类相关问题与技术的学术专著。

大数据分析、数据的分类与预测是一个非常大的研究领域。由于篇幅的限制,现有数据挖掘著作通常只能讲解一些经典的数据分析算法,而无法全面阐述数据分析相关的算法和技术。对于需要全面、透彻掌握大数据分析技术,尤其是数据分类技术的工程师、研究人员和爱好者,迫切需要一本系统、全面、透彻阐述数据分析相关算法和技术的专业书籍。

大数据分析并不只是选择最合适的数据分类算法,而是一个系统的、涉及面广的复杂工程。除了数据分类算法的选择之外,它还需要考虑到属性选择算法、数据选择算法、多分类算法、集成学习算法以及不均衡数据分类算法。为了训练得到最佳的数据分类模型,需要综合运用上述技术并进行系统的调参及优化。现有的数据挖掘著作,通常独立地介绍数据分类算法及属性选择算法,却鲜有著作像本书这样全面解读数据分类问题涉及的方方面面技术。

本书的一个重要特色是示例驱动,通过举例子的方式详解每个算法的原理和实现细节,使得复杂的算法变得直观、易理解、易掌握。除此之外,本书还高度重视读者的动手能力的培养。讲解了每个算法的原理之后,都有对应的编程示例,帮助读者将所学的算法付诸实践、切实提高其动手能力。

如果读者正在从事大数据分析、数据分类相关的工作或对这一领域感兴趣,推荐你仔细研读本书。通过本书,你将深入理解、系统掌握主流的数据分类算法、属性选择算法、数据选择算法、多分类算法、集成学习及不均衡数据分类算法,对数据分析领域形成全面而深刻的认识,并切实掌握运用这些技术解决实际的大数据分析、数据分类问题的实战能力。杜小勇

中国人民大学信息学院教授

中国计算机学会数据库专业委员会主任

2016年国庆写于北京


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目      
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

嬴在用户:Web人物角色创建和应用实践指南

您如何保证您的网站确实给予用户他们所需要的,并对您产生商业成果?您需要了解谁是您的用户,您的用户的目标、行为和观点是什么,还要把他...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊