|
|
|
|
移动端

2.7 高级事实表技术

《数据仓库工具箱(第3版)--维度建模权威指南》第2章Kimball维度建模技术概述,本章内容出自这些设计模式的发明者。我们并不期望您一开始就从头到尾阅读本章,但希望您能将本章作为所提供技术的参考。本节为大家介绍高级事实表技术。

作者:王念滨/周连科/韦正现 译来源:清华大学出版社|2015-12-10 17:10

技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战

2.7  高级事实表技术

本节讨论的这些技术涉及不太常见的事实表模式。

2.7.1  事实表代理键

代理键可用作所有维度表的主键。此外,可使用单列代理事实键,尽管不太需要。不与任何维度关联的事实表代理键,是在ETL加载过程中顺次分配的,可用于①作为事实表的唯一主键列;②在ETL中,用作事实表行的直接标识符,不必查询多个维度;③允许将事实表更新操作分解为风险更小的插入和删除操作。

2.7.2  蜈蚣事实表

一些设计者为多对一层次的每层建立不同的规范化维度,例如,日期维度、月份维度、季度维度和年维度等,并将所有外键包含在一个事实表中。这将产生蜈蚣事实表,包含与维度相关的多个维度。应该避免使用蜈蚣事实表。所有这些固定深度的、多对一层次化关联的维度都应该回到它们最细节的粒度上,例如,上例中提到的日期。当设计者将多个外键嵌入到单一低粒度维度表中,而不是建立杂项维度时,也会产生蜈蚣事实表。

2.7.3  属性或事实的数字值

设计者有时会遇到一些数字值,难以确定将这些数字值分类到维度表或是事实表的情况。典型的实例是产品的标准价格。如果该数字值主要用于计算目的,则可能属于事实表。如果该数字值主要用于确定分组或过滤,则应将其定义为维度属性,离散数字值用值范围属性进行补充(例如,$0~50)。某些情况下,将数字值既建模为维度又建模为属性是非常有益的,例如,定量准时交货度量以及定性文本描述符。

2.7.4  日志/持续时间事实

累积快照事实表获取多个过程里程碑,每个都包含日期外键并可能包含日期/时间戳。商业用户通常希望分析这些里程碑之间的滞后及延迟时间。有时这些延迟仅仅是日期上的差异,但某些情况下,延迟可能基于更复杂的业务规则。如果流水线包含大量的步骤,则可能存在上百个延迟。与其要求用户查询通过日期/时间戳或者日期维度外键计算每个可能存在的延迟,不如根据过程的开始时间点为每个度量步骤存储一个时间延迟。这样做可以方便地通过利用存储在事实表中的两个延迟,简单地用减法计算任何两个步骤间可能存在的延迟。

2.7.5  头/行事实表

操作型交易系统通常包括事务头指针行,头指针行与多个事务行关联。采用头/行模式(也称为父/子模式),所有头指针级别维度外键与退化维度应该被包含在行级别事实表。

2.7.6  分配的事实

头指针/行事务数据与对应的事实具有不同粒度这样的情况经常发生,例如,头表示货运费用。应该尽量分配头指针事实,使其基于业务所提供的规则划分为行级别,分配的事实可以按照所有维度进行分片并上钻操作。多数情况下,可避免建立头指针级别的事实表,除非这样的聚集能够获得查询性能的改善。

2.7.7  利用分配建立利润与损失事实表

事实表揭示利润等价方程是企业DW/BI应用能够发布的最强大的结果。利润方程是:收入-开销=利润。理想地实现利润方程的事实表应为原子收入事务粒度并包含许多开销项。因为这些表处于原子粒度,才能实现数字化的上卷,包括客户利润,产品利润,促销利润,渠道利润等。然而,建立这些事实表存在一定难度,因为开销项必须从其原始来源划分到事实表粒度。这一分配步骤通常由ETL子系统完成,这一过程是一个与业务相关的步骤,需要高层经理的支持。出于以上原因,利润与损失事实表通常在DW/BI程序的早期实现阶段不会被处理。

2.7.8  多种货币事实

以多种货币单位记录财务事务的事实表行应该包含一对列。其中一列包含以真实币种表示的事实,另外一列包含同样的,但以整个事实表统一的单一标准币种表示的事实。标准币种值在ETL过程中按照规定的货币转换规则建立。该事实表也必须有一个货币维度用于区分事务的真正货币。

2.7.9  多种度量事实单位

某些业务过程需要事实同时以多种度量单位表示。例如,按照业务用户的观点,供应链可能需要对相同事实以平台、船运、零售以及单个扫描单元构建报表。如果事实表包含大量事实,而每个事实都必须以所有度量单位表示,此时较好的方法是将事实以公认的标准度量单位存储,同时存储标准度量与其他度量的转换系数。这种事实表可按照不同用户的观点部署,使用适当选择的转换系数。转换系数必须存储在事实表行中以确保计算简单正确,并尽量降低查询复杂性。

2.7.10  年-日事实

商业用户在事实表中通常需要年-日(year-to-date,YTD)值。很难反对单个请求,但是YTD请求很容易变换为"财务周期结束时的YTD"或者"财务周期日"。一种更可靠、可扩展的处理这些请求的方法是在BI应用或OLAP多维数据库中计算YTD矩阵,而不是在事实表中查出YTD事实。

2.7.11  多遍SQL以避免事实表间的连接

BI应用绝不应该跨事实表的外键处理两个事实表的连接操作。在关系数据库中,控制此类连接操作的回答集的基数是不可能的,将会产生不正确的结果。例如,如果两个事实表包含客户产品出货和返回,则这两个表不能按照客户和产品外键直接连接。要采用跨钻方式使用两个事实表,并对结果按照公共行头指针属性值,进行排序-融合操作以产生正确结果。

2.7.12  针对事实表的时间跟踪

存在三种基本事实表粒度:事务级别、周期快照和累积快照。个别情况下,在事实表中增加行有效时期、行截止日期和当前行标识是非常有用的,与采用类型2缓慢变化维度,在事实行有效时获取时间的方式类似。尽管不太常用,但该模型能够解决诸如缓慢变化库存平衡的场景,其中频繁周期快照可以在每个快照上加载同一行。

2.7.13  迟到的事实

迟到事实是指如果用于新事实行的多数当前维度内容无法匹配输入行的情况。这通常发生在当事实行延迟产生时。在此情况下,当迟到度量事件出现时,必须搜索相关维度以发现有效的维度键。

喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:342347198

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

计算机网络安全

本书从计算机网络安全的概念入手,分析了单机节点、单一网络、互联网络和开放互联网络的基本安全问题,并对计算机网络安全体系架构和安全机...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊