《华为数据之道》读书笔记:第 5 章 面向“联接共享”的数据底座建设

用户头像
方志
关注
发布于: 2020 年 11 月 28 日

1 支撑非数字原生企业数字化转型的数据底座建设框架

华为公司通过建设数据底座,将公司内外部的数据汇聚在一起,对数据进行重新组织和联接,让数据有清晰的定义和统一的结构,并在尊重数据安全与隐私的前提下,让数据更易获取,最终打破数据孤岛和垄断。



通过数据底座,主要可以实现如下目标:

1)统一管理结构化、非结构化数据。将数据视为资产,能够追溯数据的产生者、业务源头以及数据的需求方和消费者等。

2)打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自助分析、数字化运营等不同场景的数据消费需求。

3)确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况,从底层数据存储的角度,诊断数据冗余、重复以及“僵尸”问题,降低数据维护和使用成本。

4)保障数据安全可控。基于数据安全管理策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规地消费。

1.1 数据底座的总体架构

华为数据底座由数据湖、数据主题联接两层组成,将公司内外部的数据汇集到一起,并对数据进行重新的组织和联接,为业务可视化、分析、决策等提供数据服务。



数据湖是逻辑上各种原始数据的集合,除了“原始”这一特征外,还具有“海量”和“多样”的特征。数据湖保留数据的原格式,原则上不对数据进行清洗、加工,但对于数据资产多源异构的场景需要整合处理,并进行数据资产注册。



数据主题联接是对数据湖的数据按业务流/事件、对象/主体进行联接和规则计算处理,形成面向数据消费的主题数据,具有多角度、多层次、多粒度等特征,支撑业务分析、决策与执行。基于不同的数据消费诉求,主要有多维模型、图模型、指标、标签、算法模型5种数据联接方式。



1.2 数据底座的建设策略

数据底座建设不能一蹴而就,要从业务出发,因势利导,持续进行。

华为数据底座采取“统筹推动、以用促建、急用先行”的建设策略。

数据底座资产建设遵从下面四项原则:

1)数据安全原则

2)需求、规划双轮驱动原则

3)数据供应多场景原则

4)信息架构遵从原则



2 数据湖:实现企业数据的“逻辑汇聚”

2.1 华为数据湖的3个特点

1)逻辑统一

华为数据湖不是一个单一的物理存储,而是根据数据类型、业务区域等由多个不同的物理存储构成,并通过统一的元数据语义层进行定义、拉通和管理

2)类型多样

数据湖存放所有不同类型的数据,包括企业内部IT系统产生的结构化数据、业务交易和内部管理的非结构化的文本数据、公司内部园区各种传感器检测到的设备运行数据,以及外部的媒体数据等。

3)原始记录

华为数据湖是对原始数据的汇聚,不对数据做任何的转换、清洗、加工等处理,保留数据最原始特征,为数据的加工和消费提供丰富的可能。

2.2 数据入湖的6个标准

1)明确数据Owner

数据Owner由数据产生对应的流程Owner担任,是所辖数据端到端管理的责任人,负责对入湖的数据定义数据标准和密级,承接数据消费中的数据质量问题,并制定数据管理工作路标,持续提升数据质量。

2)发布数据标准

入湖数据要有相应的业务数据标准。业务数据标准描述公司层面需共同遵守的“属性层”数据的含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦明确并发布,就需要作为数据标准在企业内被共同遵守。

3)认证数据源

通过认证数据源,能够确保数据从正确的数据源头入湖。认证数据源应遵循公司数据源管理的要求,一般数据源是指业务上首次正式发布某项数据的应用系统,并经过数据管理专业组织认证。

4)定义数据密级

定义数据密级是数据入湖的必要条件,为了确保数据湖中的数据能充分地共享,同时又不发生信息安全问题,入湖的数据必须要定密。数据定级应在属性层级。

5)数据质量评估

数据质量是数据消费结果的保证,数据入湖不需要对数据进行清洗,但需要对数据质量进行评估。

6)元数据注册

元数据注册是指将入湖数据的业务元数据和技术元数据进行关联,包括逻辑实体与物理表的对应关系,以及业务属性和表字段的对应关系。通过联接业务元数据和技术元数据的关系,能够支撑数据消费人员通过业务语义快速地搜索到数据湖中的数据,降低数据湖中数据消费的门槛,能让更多的业务分析人员理解和消费数据。

2.3 数据入湖方式

数据入湖遵循华为信息架构,以逻辑数据实体为粒度入湖,逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上,一个逻辑数据实体的所有属性应该一次性进湖,避免一个逻辑实体多次入湖,增加入湖工作量。

数据入湖的方式主要有物理入湖和虚拟入湖两种,根据数据消费的场景和需求,一个逻辑实体可以有不同的入湖方式,两种入湖方式相互协同,共同满足数据联接和用户数据消费的需求,数据管家有责任根据消费场景的不同,提供相应方式的入湖数据。

物理入湖是指将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。

虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用,大批量的数据操作可能会影响源系统。

2.4 结构化数据入湖

结构化数据是指由二维表结构来逻辑表达和实现的数据,严格遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

触发结构化数据入湖的场景有两种:第一,企业数据管理组织基于业务需求主动规划和统筹;第二,响应数据消费方的需求。

结构化数据入湖过程包括:数据入湖需求分析及管理、检查数据入湖条件和评估入湖标准、实施数据入湖、注册元数据。

2.5 非结构化数据入湖

非结构化数据包括无格式的文本、各类格式的文档、图像、音频、视频等多样异构的格式文件。

非结构化数据入湖包括基本特征元数据入湖、文件解析内容入湖、文件关系入湖和原始文件入湖4种方式。

3 数据主题联接:将数据转换为“信息”

华为在数据湖的基础上通过建立数据联接层,基于不同的分析场景,通过5类联接方式将跨域的数据联接起来,将数据由“原材料”加工成“半成品”和“成品”,支撑不同场景的数据消费需求。

  • 多维模型是面向业务的多视角、多维度的分析,通过明确的业务关系,建立基于事实表、维度表以及相互间联接关系,实现多维数据查询和分析。

  • 图模型面向数据间的关联影响分析,通过建立数据对象以及数据实例之间的关系,帮助业务快速定位关联影响。

  • 标签是对特定业务范围的圈定。在业务场景的上下文背景中,运用抽象、归纳、推理等算法计算并生成目标对象特征的表示符号,是用户主观观察、认识和描述对象的一个角度。

  • 指标是对业务结果、效率和质量的度量。依据明确的业务规则,通过数据计算得到衡量目标总体特征的统计数值,能客观表征企业某一业务活动中的业务状况。

  • 算法模型是面向智能分析的场景,通过数学建模对现实世界进行抽象、模拟和仿真,提供支撑业务判断和决策的高级分析方法。



用户头像

方志

关注

还未添加个人签名 2018.03.15 加入

还未添加个人简介

评论

发布
暂无评论
《华为数据之道》读书笔记:第 5 章 面向“联接共享”的数据底座建设