|
|
51CTO旗下网站
|
|
移动端

1.4 关于本书

《精通数据科学:从线性回归到深度学习》第1章数据科学概述,本书从数学统计学,讲到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。

作者:唐亘来源:人民邮电出版社|2018-05-24 09:08

1.4 关于本书

数据科学涉及计算机编程和数学建模这两个方面。它们之间的交集并不多,所强调的技能也有很大区别。这体现在实际生产中就是懂模型的人不懂编程,懂编程的人不懂模型,两者兼备的人才非常稀缺。本书的第一个目的就是将这两者的鸿沟弥补起来,注重模型假设和数学推导的同时,强调如何用代码实现模型。

从模型之间的联系和区别出发,分析各个模型的优缺点。帮助非数学专业的读者更加深入地理解模型的假设和适用范围,而不只是停留在会使用开源模型库的API。
通过大量实际案例和代码展示,帮助非计算机专业的读者能独立上机实践模型算法,而不只停留在模型的理论研究。
对于数据科学中的模型搭建,统计学和机器学习是其最重要的组成部分。这两门学科的侧重点并不相同,在很多方面它们是彼此很好的补充。在面对一个实际问题时,若能将两者的方法相结合,能更好地挖掘数据的内在规律,从而更大程度地发挥数据的价值。这是本书的第二个目的。

将机器学习和统计结合起来,并借鉴统计学在经济领域的应用,为机器学习的算法提供一个生动而又不失精确的解释。同时用丰富的图片将这些解释直观地表现出来,帮助专业人员将模型和算法解释给非专业的业务人员,推动模型的落地和应用。
借鉴计量经济学的方法,深入探讨模型应用中常常被人们(特别是机器学习专业人员)忽略的问题,如模型是否稳定、模型结果是否可靠等,帮助读者反思建模过程中是否有考虑不周到的地方,以至于模型得到错误的结论。
当前,数据科学有两个最热门的前沿领域:分布式机器学习和深度学习。本书有专门的章节讨论它们,展示这两个领域想要解决的问题和目前最好(或最流行)的解决方案。这是本书的第三个目的:从宏观的角度向读者展示什么是数据科学,想要解决的问题、主要的方法以及未来的发展方向。

本书并不试图成为机器学习或统计学的参考书。在之后的章节里,有关模型的数学推导都只是简略讲解,并不做详细证明(本书也不会为了迎合行文简便,一味地回避这些难点[6])。本书讨论的重点是数据科学的整个工作流程(Pipeline):不止是搭建模型、用数据去训练模型,而是如何对数据进行预处理,初步分析数据、搭建并评估模型以及根据结果分析模型的缺点进而改进模型。

[6] 伟大的法国天才数学家,抽象代数的奠基人,埃瓦里斯特·伽罗瓦(évariste Galois)曾说过:“一个作家对读者做的最大的恶就是隐藏难点(un auteur ne nuit jamais tant à ses lecteurs que quand il dissimule une difficulté)。”这也是本书在编写时遵循的原则之一:直面数据科学领域里的难点,但用通俗的语言讲解它们。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

SQL实用简明教程(第2版)

SQL(结构化查询语言)是数据库系统的通用语言,利用它可以用几乎同样的语句在不同的数据库系统上执行同样的操作,在数据库系统的开发中有着...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊