|
|
|
|
移动端

2.1.2 Python在数据科学中的地位

《精通数据科学:从线性回归到深度学习》第2章Python安装指南与简介:告别空谈,本章介绍数据科学中最常用的IT工具:Python以及相关第三方库。本节为大家介绍Python在数据科学中的地位。

作者:唐亘来源:人民邮电出版社|2018-05-24 09:11

技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!


2.1.2 Python在数据科学中的地位

在掌握Python这门编程语言后,小安可以做很多有趣的事情:比如编写网络爬虫程序、从互联网上收集所需要的数据、开发任务调度系统、定时更新模型等。当然作为数据科学工作者的小安,她最常用Python做下面这4件事情,如图2-4所示。


数据清洗:在得到原始数据后,小安首先会对这些数据做初步处理,比如统一字符串的大小写、将明显错误的数据做更正等。这也就是所谓的将“脏”数据“清洗干净”,使数据更适合做分析。小安借助Python以及它的第三方库pandas,能很方便地完成这一步工作。

数据可视化:小安使用Matplotlib,用图形化的方式展示数据。在提取特征之前,小安可以从图形中得到对数据的第一直观感受,启发思路;在与其他部门同事交流时,借助图形可以清晰有效地传达与沟通信息,让洞察见解跃然纸上。

特征提取:在这一步中,小安通常会先将存放在不同地方的相关数据关联起来,比如将客户基本信息和客户购物信息通过客户ID整合到一起。然后对数据做转换,提取出对建模有用的变量,这些变量被称为特征。在这一过程中,小安会用到Python的NumPy、SciPy、pandas和PySpark。

模型搭建:开源库scikit-learn、Statsmodels、Spark ML和TensorFlow几乎涵盖了所有常用的基础算法。小安在这些算法库的基础上,根据数据特征和算法假设,可以很容易地将基础算法搭建在一起,造出自己想要的模型。

上述的4件事情也正是数据科学中最核心的4个步骤。这就难怪小安同其他大部分数据科学家一样,会选择Python为工具来完成自己的工作。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

计算机病毒分析与防治简明教程

本书全面翔实地介绍了各种病毒的原理,以操作系统的发展为主线,结合病毒的发展过程来综合分析病毒。在分析工具上,较多地利用了脚本语言、...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊