数据仓库的基本要求
安全性
首先要提数据安全,最近某公司上市两天就是因为数据安全被审查,现在还在审查当中。数据仓库作为企业的数据中心,能够接触到各操作系统,进行数据采集和加工。因此在数据对外提供服务时,必须有适当的授权机制。这意味着只有被授权的用户才能访问数据,这些用户在访问的同时,也有责任保证数据的安全。而且只有数据的归口方才有权限进行数据赋权。
在数据仓库的设计阶段,就应该进行如下的安全性考虑:
数据仓库中的数据对于最终用户是只读的,任何人都不能修改其中的数据,这是由数据的非易失性所决定的。
划分数据的安全等级,如公开的、机密、秘密、绝密等。
制定访问控制方案,决定哪些用户可以访问哪些数据。
设计授予、回收、变更用户访问权限的方法。
添加对数据访问的审计功能。
可访问性
能够快速准确地分析所需要的数据是辅助决策支持的关键。有了数据的支持,业务就可以根据市场和客户的情况做出及时地调整。这就要求用户能够有效地查找、理解和使用数据。数据应该是随时可访问的。数据的可访问性是一个 IT 技术的通用特性。这里数据可访问性指的是用户访问和检索数据的能力。数据仓库的最终用户通常是业务人员、管理人员或者数据分析师。他们对组织内的相关业务非常熟悉,对数据的理解也很透彻,但是他们大都不是 IT 技术专家。这就要求我们在设计数据仓库的时候,将用户接口设计得尽量友好和简单,使得没有技术背景的用户同样可以轻易查询到他们需要的数据。
自动化
这里的自动化有狭义和广义两个层面的理解。狭义的自动化指的是数据仓库相关作业的自动执行。比如 ETL 过程、报表生成、数据传输等处理,都可以周期性定时自动完成。广义的数据仓库自动化指的是在保证数据质量和数据一致性的前提下,加速数据仓库系统开发周期的过程。整个数据仓库生命周期的自动化,从对源系统分析到 ETL,再到数据仓库的建立、测试和文档化,可以帮助加快产品化进程,降低开发和管理成本,提高数据质量。
数据要求
通过数据仓库,既可以周期性地回答已知的问题(如报表等),也可以进行即席查询(ad-hoc queries)。报表最基本的需求就是对预定义好的一系列查询条件、查询内容,排序条件等进行组合,查询数据,把结果用表格或图形的形式展现出来。而所谓的即席查询不是预定义好的,而是在执行时才确定的。换句话说,即席查询是指那些用户在使用系统时,根据自己当时的需求定义的查询。数据库管理员使用命令行或客户端软件,连接数据库系统执行各种各样的查询语句,是最为常见的一种即席查询方式。而理想的数据仓库系统,允许业务或分析人员也可以通过系统执行这样的自定义查询。为了满足需求,数据仓库中的数据需要确保准确性、时效性和历史可追溯性。
准确性
想要数据仓库实施成功,业务用户必须信任其中的数据。这就意味着他们应该能知道数据从哪来,何时抽取,怎么转换的。更重要的是,他们需要访问原始数据来确
定如何解决数据差异问题。实际上 ETL 过程应该总是在数据仓库的某个地方(如 ODS)保留一份原始数据的复制。
时效性
用户的时效性要求差异很大。有些用户需要数据精确到毫秒级,而有些用户只需要几分钟、几小时甚至几天前的数据就可以了。数据仓库是分析型系统,用于决策支
持,所以实践中一般不需要很强的实时性,以一天作为时间粒度是比较常见的。
历史可追溯性
数据仓库更多的价值体现在它能够辅助随时间变化的趋势分析,并帮助理解业务事件(如特殊节日促销等)与经营绩效之间的关系。
版权声明: 本文为 InfoQ 作者【奔向架构师】的原创文章。
原文链接:【http://xie.infoq.cn/article/bef5a31e422923c7eb4bd3190】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论