|
|
|
|
移动端

3.4 数据仓库

《数据库系统:设计、实现与原理(基础篇)(原书第6版)》第3章数据库的结构与Web,本章我们首先考察一些目前已投入使用的不同系统的结构,然后讨论有关Web服务和面向服务的结构(SOA)的进展。本节为大家介绍数据仓库。

作者:宁洪/贾丽丽/张元昭 译来源:机械工业出版社|2017-09-28 14:29

有奖调研 | 1TB硬盘等你拿 AI+区块链的发展趋势及应用调研


3.4 数据仓库

自20世纪70年代以来,很多企业都将投资集中在新型的能将业务流程自动化的系统(称为联机事务处理或OLTP)上。希望据此为客户提供更为高效和经济的服务,使企业更具竞争优势。这么多年过去了,企业积累了大量并且还在不断增长的数据,它们都存储在操作数据库中。现在,这种系统已经变得相当普遍,企业又开始将目光转向使用这些操作数据进行决策分析,以求更具竞争力。

以往操作型系统在设计与开发时没有考虑到决策分析的需求,所以直接在这种系统上进行决策分析并不适合。典型的情形是,企业可能包含了多种操作型系统,里面存在一些重叠甚至相悖的定义,例如数据类型。因此,需要把这些归档数据转换成知识源,给用户提供一个关于组织机构单一、完整的数据视图。数据仓库的概念正是为满足这一需求而提出的,即数据仓库是能从多个操作型数据源中获取数据以支持决策分析的系统。

数据仓库 | 从不同数据源抽取数据构成的公共数据的一组固定/集成的视图,加上一组终端访问工具,能用于从简到繁的各类查询以支持决策分析。

数据仓库中的数据被描述为面向主题、集成、时变和非易失的(Inmon,1993)。

面向主题的。数据仓库是围绕企业的主题(比如客户、产品、销售等)而不是应用领域(比如客户货品计价、股票控制、产品销售等)进行组织的。这是因为数据仓库中存储的是用于决策分析的数据而不是面向应用的数据。

集成的。数据仓库的数据来源于组织机构内各种不同的应用系统。源数据经常存在不一致的问题,比如使用不同的数据类型或格式。被集成的数据源必须要一致化,以便给用户提供一个统一的数据视图。

时变的。数据仓库中的数据只在某个时刻或某段时间间隔内是精确和有效的。

非易失的。数据并不进行实时更新,而是定时从操作型系统中刷新。新的数据总是对数据仓库做追加,而不是取代。

数据仓库的典型结构如图3-13所示。

对数据仓库,操作型数据的来源主要包含大型机、专有文件系统、私有工作站和服务器,以及如Internet之类的外部系统。操作型数据存储(Operatonal Data Store,ODS)中储存着当前和集成的操作数据,供分析用。尽管它的结构及提供数据的方式一般与数据仓库相同,但它只是操作型数据进入数据仓库之前的一个等待区。加载管理器执行所有与数据提取和装入数据仓库相关的操作。仓库管理器执行所有与数据管理相关的操作,如源数据的转换和归并、基表上索引和视图的创建、产生聚集数据、备份和归档数据等。查询管理器执行数据仓库中所有与用户查询管理相关的操作。细节数据不一定都联机存放,一般只能看到汇总到一定层次后的数据。但是常规而言,细节数据要加入数据仓库以补充汇总数据。数据仓库中存储了许多由仓库管理器产生的预定义的轻度或高度汇总数据。存储汇总数据的目的是加快查询速度。一开始汇总数据时的操作开销因避免了后续汇总操作(如排序或分组)而得到补偿。这些汇总数据随着新数据的加载而需不断更新。细节数据和汇总数据为了备份和归档也需离线存储。元数据(关于数据的数据)的定义被数据仓库中的所有过程用到,包括数据抽取和加载过程、数据仓库管理过程,它同时作为查询管理过程的一部分。

数据仓库的主要用途是为企业用户提供决策支持信息。这些用户通过终端用户访问工具与数据仓库交互。数据仓库必须有效地支持即席查询、例行分析以及更复杂的数据分析。终端用户访问工具通常包括报表和查询工具、应用程序开发工具、可执行信息系统(EIS)工具、联机分析处理工具(OLAP)和数据挖掘工具。我们将在第31~34章深入讨论数据仓库、OLAP和数据挖掘工具。

喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

C#和.NET核心技术

本书重点讲解如何用实用的代码来解决具体的实际问题。本书的内容覆盖面很广,从新的C#范型到Web服务,从反射到安全等都有涉及。系统地介绍...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊