元数据的管理
元数据定义为“描述数据的数据”,其本质也是一种数据。一般来讲,元数据可以分为业务元数据、技术元数据和操作元数据(也叫管理元数据)。其中业务元数据一般包括报表指标的定义说明、业务规则、数据标准等;技术元数据一般包括物理数据库的表和字段,数据库的 ETL;操作元数据则包括审计结果、错误日志、调度异常日志等。
为了理解元数据在数据管理中的重要作用,我们可以想象一下在一个大型图书馆中有成千上万的书籍。如果没有一个目录索引,或者主题的分类,读者很难找到一本特定的书籍或者是某一类型的书籍。同样对于数据仓库来说,我们将数据类比为书籍,业务与技术人员类比为用户,要想在海量的数据中快速的找到自己需要的数据,那么自然离不开对元数据的管理。
如果没有可靠的元数据,我们就不知道自己有什么数据,数据表示什么,数据来自何处,数据如何在系统中流转,谁可以访问这些数据,更不用说要将数据作为资产进行管理。所以简单而言,开展元数据管理工作是开展数据资产管理的基础。
如何管理元数据?
因为元数据的范围太广,究竟要管理哪些元数据,如何去管理,会让不少人心生困惑。一般来讲,可以从元数据应用的角度来反向思考,例如需要构建数据目录,以支持未来的取数用数的查找和探索;需要根据数据质量问题追溯数据发生的源头;需要根据数据定义与数据标准进行对标等。明确具体的元数据应用以后,分析支撑这个应用需要管理和维护的元数据有哪些,再进行这些元数据的采集和存储。
只有从元数据的应用角度开展管理工作,才能避免为管理元数据而管理元数据,此外对于管理范围、管理目标也都比较明确,短期的成果也将切实可见,业务部门或者是相关的技术部门才能更有动力持续的维护和管理元数据。
如何构建数据资产目录?
一般对于元数据管理来讲,会优先建立数据资产目录,那如何建立数据资产目录呢?
数据目录可以通过业务角度的自上而下演绎,以及结合数据角度自下而上归纳进行构建。
自上而下的演绎,是确保数据目录可以按照业务的视角进行组织的,可以关联业务的场景,包括业务流程中用到表单,术语等。自下而上的归纳,是为了满足数据目录真实客观,保证数据目录呈现的内容可以在真实的信息系统中查找到,可以最终映射关联到精确的信息项。
构建的数据目录可以是多视角的,一种方式就是通过概念对象组织呈现,如客户对象、个人客户对象、对公客户对象。每个对象拥有不同的属性分类,而这些分类与属性分别分布在不同系统的表和字段中。此外数据目录还可以通过如业务域,安全分类等不同的视角或者标签进行呈现。
我们从信息时代进入数据时代,元数据的管理比任何时期都要来的更为迫切和重要。在海量的数据中,元数据的管理就如大型图书馆中的导航索引,也如一张城市的地图。管理好元数据,也就为数据资产管理打下坚实的基础
评论