|
|
|
|
移动端

前言

《精通数据科学:从线性回归到深度学习》本书是全面讲解了数据科学的相关知识,从数学统计学,讲到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。本节为前言。

作者:唐亘来源:人民邮电出版社|2018-05-24 08:58

技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!


前言

和武侠世界里有少林和武当两大门派一样,数据科学领域也有两个不同的学派:以统计分析为基础的统计学派,以及以机器学习为基础的人工智能派。虽然这两个学派的目的都是从数据中挖掘价值,但彼此“都不服气”。注重模型预测效果的人工智能派认为统计学派“固步自封”,研究和使用的模型都只是一些线性模型,太过简单,根本无法处理复杂的现实数据。而注重假设和模型解释的统计学派则认为人工智能派搭建的模型缺乏理论依据、无法解释,很难帮助我们通过模型去理解数据。

从历史上来看,一门学科出现相互对立的学派通常意味着这门学科处于爆发的前夜,比如20世纪初的经济学,凯恩斯学派和新古典经济学派的长期论战极大地促进了宏观经济学的发展,并深刻地影响了各国政府的经济政策,并由此改变了人们的生活方式。现在数据科学也处在这样相似的位置和时间节点,它已经开始并将继续改变我们的世界。

抛开这些学术上的纷争,在实际工作中应该采用哪个学派的方法来解决数据挖掘的问题呢?答案是两者都需要,而且两者都重要。在某些应用场景中,比如图像识别领域,人工智能模型有非常惊艳的表现。虽然人们还没弄清楚这些模型的工作原理,但并不妨碍它们在现实中发挥作用。事实上,人类在很多其他领域里也是这种实践先行的状态。

但在更多的应用场景中,统计学派的方法则显得更为重要。我曾在欧洲的一家保险公司里参与过一个车险定价的项目,在这个项目里,数据科学家们主要尝试了两类模型,一类是很容易解释的逻辑回归和决策树模型,另一类是较为复杂的随机森林模型。随机森林模型的预测效果更好,如果将其投入生产中,仅在法国每年就能产生数千万欧元的利润。但问题是随机森林模型难以解释,监管部门根本不接受,所以只能退而求其次,使用效果较差但更易解释的决策树模型。抛开监管层的要求不说,模型的可解释性也是非常重要的。试想一下,顾客去保险公司购买车险时,被告知需要比别人花更多的钱,而对方提供的理由是,有一个不好解释的模型预测出顾客需要付更多钱,我想大部分顾客会难以接受这样的理由和做法吧。

上述的两种建模方式虽然在处理数据的方法上有很大差异,但它们有一个共同的“物质基础”——计算机。只有借助计算机强大的运算能力,我们才能在工程上实现搭建好的模型,使之发挥作用。因此,数据科学是统计学、机器学习以及计算机科学3门学科的交叉,涉及的知识点和技能点很庞大且复杂。如果能将这3门学科融会贯通,那么就能描绘出有关数据科学的全景图,进而搭建起一个完整的知识体系,而这正是我编写本书的初衷。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目      下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

程序员教程(第2版)

本书按照人事部、信息产业部全国计算机技术与软件专业技术资格(水平)考试程序员考试大纲编写,是对2004版的修订版,内容包括计算机系统、...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊