|
|
|
|
移动端

1.1 挑战

《精通数据科学:从线性回归到深度学习》第1章数据科学概述,本书从数学统计学,讲到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。本节为大家介绍挑战。

作者:唐亘来源:人民邮电出版社|2018-05-24 09:01

技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!


第1章 数据科学概述

The purpose of computing is insight,not numbers.

(计算的目的不在于数字,而在于洞察事物。)

——Richard Hamming

1.1 挑战

1.2 机器学习

1.3 统计模型

1.4 关于本书

随着云计算和人工智能的发展,数据科学这门新的综合学科被越来越多的人所熟知,业界也普遍看好其在未来的发展前景。体现在就业市场上,与这个行业相关的数据科学家和数据工程师[1]成为了“21世纪最吸引人的职业”[2]。

[1] 数据科学家(data scientist)的主要工作是为数据搭建模型,要求具有扎实的数学以及统计知识;数据工程师(data engineer)的主要工作是利用计算机分析数据和实现数据科学家设计好的模型,要求具有良好的编程实现能力。实际上这两种职业的工作内容有很多重叠的部分,因此要求从业者同时具备较好的数理知识和工程实现能力。

[2] Davenport T H, Patil D J. Data Scientist: The Sexiest Job of the 21st Century[J]. Harvard Business Review, 2012, 90(10):70-76.

就像“一千个人眼里有一千个哈姆雷特”一样,对于什么是数据科学也有很多种不同的解读,并由此衍生出很多相关概念,比如数据驱动(data driven)、大数据(big data)、分布式计算(parallel computing)等。这些概念虽然各有侧重点,但它们都毫无争议地围绕着同一个主题:如何从实际的生活中提取出数据,然后利用计算机的运算能力和模型算法从这些数据中找出一些有价值的内容,为商业决策提供支持。这正是数据科学的核心内涵。

传统的数据分析手段是所谓的商业智能(business intelligence)。这种方法通常将数据按不同的维度交叉分组,并在此基础上,利用统计方法分析每个组别里的信息。比如商业智能中最常见的问题是:“过去3个月,通过搜索引擎进入网站并成功完成注册的新用户里,年龄分布情况如何?若将上面的用户群按年龄段分组,各组中有多大比例的用户在完成注册后,完成了至少一次消费?”

这样的分析是非常有用的,能揭示一些数据的直观信息。但这样的方法如同盲人摸象,只能告诉我们数据在某个局部的情况,而不能给出数据的全貌。而且对于某些问题,这样的结果显得有些不够用。比如用户注册之后完成消费的比例与哪些因素相关?又比如对于某个客户,应该向他推荐什么样的商品?在这些场景下,我们就需要更加精细的数据分析工具——机器学习和统计模型。在我看来,这些内容是数据科学的核心内容,也是本书介绍的重点。

1.1 挑战

在数据科学实践中,我们将使用较为复杂的机器学习或统计模型对数据做精细化的分析和预测。这在工程实现和模型搭建两方面都提出了挑战,如图1-1所示。



喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

网管员必读—网络基础

本书共分两篇,15章。其中前6章为网络理论基础篇,介绍的是基本的网络技术,包括计算机网络分类、网络通信协议、IP地址和网线制作等。在第...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊