|
|
51CTO旗下网站
|
|
移动端

1.3.3 在NumPy中加载数据集

《Python数据挖掘入门与实践》第1章开始数据挖掘之旅,本章介绍了如何用Python进行数据挖掘。如果你能运行这一部分的代码 (见代码包第1章的文件夹),说明开发环境已搭建好,后续章节的大部分代码都能运行了。本节为大家介绍在NumPy中加载数据集。

作者:杜春晓 译来源:人民邮电出版社|2016-06-24 15:49

1.3.3 在NumPy中加载数据集

下载本书配套代码包,保存到你的计算机上,然后找到这个例子的数据集。本例中,建议你新建一个文件夹,把数据集和代码都放进去。在当前目录 下,启动IPython Notebook,导航进入新建的文件夹,创建一个新的笔记本文件。

处理该数据集要用到NumPy的二维数组,书中大部分例子都会用到这种数据结构。数组看上去像是一张表,每一行表示样本中一个个体,每一列表示一种特征。

数组的每一项为个体的某项特征值。说起来有些拗口,为方便讲解,使用如下代码把数据集加载进来,稍后输出数组的部分数据看看效果:

  1. import numpy as np  
  2. dataset_filename = "affinity_dataset.txt" 
  3. X = np.loadtxt(dataset_filename) 

运行IPython Notebook,创建笔记本文件,在***个格子中输入上述代码。按下Shift+Enter(同时创建新的格子)运行代码。代码运行完毕后,***个格子左侧的方括号中出现一个表示序号的数字,看到这个数字就表明程序运行结束。***个格子应该如下所示:

对于笔记

本文件,前面的代码运行完后,后面的才能运行;还没有轮到它运行或是在运行中时,方括号中显示一个星号。运行结束后,星号立刻变为序号。

记得把数据集文件和笔记本文件放到同一目录下。否则,请修改上述代码中dataset_ filename变量的值。

接下来,我们看看数据集到底是什么样子。在笔记本空格子中输入以下代码,输出数据集的前5行看看:

  1. print(X[:5]) 

如果你从http://www.packtpub.com网站购买的图书,登录后即可下载已购图书的代码文件。如果你是从别处购买的图书,访问http://www.packtpub. com/support,注册后,我们可以用电子邮件把你需要的文件发给你。

上述代码的运行结果为前5次交易中顾客都买了什么。

输出结果从横向和纵向看都可以。横着看,每次只看一行。***行(0, 0, 1, 1, 1)表示***条交易数据所包含的商品。竖着看,每一列代表一种商品。在我们这个例子中,这五种商品分别是面包、牛奶、奶酪、苹果和香蕉。从***条交易数据中,我们可以看到顾客购买了奶酪、苹果和香蕉,但是没有买面包和牛奶。

每个特征只有两个可能的值,1或0,表示是否购买了某种商品,而不是购买商品的数量。1表示顾客至少买了1个单位的该商品,0表示顾客没有买该种商品。

喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:342347198

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

16招轻松掌握PPT技巧

16招轻松掌握PPT技巧

GET职场加薪技能
共16章 | 晒书包

289人订阅学习

20个局域网建设改造案例

20个局域网建设改造案例

网络搭建技巧
共20章 | 捷哥CCIE

645人订阅学习

WOT2019全球人工智能技术峰会

WOT2019全球人工智能技术峰会

通用技术、应用领域、企业赋能三大章节,13大技术专场,60+国内外一线人工智能精英大咖站台,分享人工智能的平台工具、算法模型、语音视觉等技术主题,助力人工智能落地。
共50章 | WOT峰会

0人订阅学习

读 书 +更多

程序员面试宝典

本书取材于各大IT公司历年面试真题(笔试、口试、电话面试、英语面试,以及逻辑测试和智商测试)。详细分析了应聘程序员(含网络、测试等...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客