|
|
|
|
移动端

1.5 其他数据挖掘技术

《大数据分析:数据挖掘必备算法示例详解》第1章数据分析绪论,本章主要介绍预备知识,即在进行数据分析前,读者需要了解的知识与背景。本节为大家介绍其他数据挖掘技术。

作者:张重生来源:机械工业出版社|2017-12-13 17:23

年前最后一场技术盛宴 | 1月27日与京东、日志易技术大咖畅聊智能化运维发展趋势!


1.5 其他数据挖掘技术

除了数据分类与预测之外,数据分析还包括聚类分析、时间序列分析、流数据分析、异常点挖掘、推荐系统等相关的算法,以及数据分析结果的可视化展示。

聚类分析主要是针对没有标签的数据,根据其数值型属性的取值,将一个数据划分为若干个组 (聚类),每个组里面的数据点之间的距离较近,而处于不同组的数据点之间的距离较远。由于实际应用的很多数据都是没有标签的,聚类分析有助于将此类数据进行分组,同一组里面的数据点的特征较为接近。针对不同的组,可以针对每个聚类采用不同的营销策略。比较著名的聚类算法有 K-Means、DBSCAN。

时间序列分析主要是针对时间序列数据 (通常是二维数据,其中一个维度是时间,另外一个维度是价格或某个属性上的取值等),例如股票价格,传感器采集的温度、风速等。针对这种动态变化的数据,需要发现其规律,预测其未来的趋势或取值。

流数据分析用于处理动态到达的多维度的数据 (多个维度),例如网站点击流、网购商城的用户交易数据和浏览记录等,流数据分析的目的是对数据进行实时分析,以及时发现蕴含在数据中的新类别、新规律或新趋势。此类技术在大型企业中有较为广泛的用途。比较知名的数据流产品有 MicrosoftStreamlnsight、StreamBase等。

异常点挖掘,主要是从数据中发现出异常的数据点,并进行预警或相应处理。很多异常点挖掘算法都基于聚类算法,主要针对没有标签的数据。

推荐系统相关的算法主要是根据用户的特征数据或行为数据,基于历史数据,向客户推荐他可能会感兴趣的商品或服务。常见的推荐算法一般是基于用户的协同过滤算法 (user-basedcollaborativefiltering),或基于 ltem的协同过滤算法 (item-basedcollaborativefiltering)。

数据的可视化,通常是把一些简单的统计分析的结果,或者是经过复杂分类、预测、数据库查询计算、统计得到的结果进行可视化展示。为了吸引用户的注意,商业软件一般都要求相当专业的可视化呈现。实际上,很多数据挖掘、商务智能公司都在可视化方面投入了主要的研发精力。比较优秀的可视化软件有 Echarts、Tableau等。

进行数据分析时,必须要问的一个问题是,数据是什么、在哪里?事实上,相当多有价值的数据都集中在各级政府和少数大型互联网公司、电信公司手中,研究人员或工程人员能够使用的数据并不是那么多。最近几年,国家也开始倡议政府数据的开放,互联网公司也正在研究对其拥有的数据的开放。大数据分析的核心理念是聚、通、用。通过对数据资源的汇聚,打通、整合各部门、各行业的数据,通过大数据指导政府的科学决策,并带动大数据、数据分析相关产业的发展,产生更多便民惠民的服务。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

网管员必读——网络组建(第2版)

《网管员必读——网络组建(第2版)》仍是以一个中等规模的模拟局域网组建为思路,较全面地介绍了与局域网组建相关的各方面知识和组建、配...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊