华为云 MRS 支持 lakeformation 能力, 打造一站式湖仓,释放数据价值
本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值》,作者:breakDawn。
1 背景
1.1 数仓和数据湖的概念
数据分析技术在 2010~2019 年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。
大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为 DWS 等
数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。
1.2 传统湖仓技术的挑战
以上技术在多年的实践中,逐步衍生出了以下的一些挑战:
随着数据和 AI 业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据 ETL 操作才能共享。
数据湖、数仓、AI 数据化,导致数据虽然可以统一存储在 OBS 孤岛,但各服务元数据独自管理,形成数据管理的孤岛。
湖仓协同仅能通过外表来访问,元数据、认证、权限都不能统一配置和管理,尤其是权限不统一严重阻碍了数据跨引擎共享。
上述问题导致了构建、保护和管理数据湖的过程复杂且耗时,通常需要大量开发和维护成本,解决这一问题的关键在于引擎元数据需要互通,只有构建满足各种引擎需求的数据湖统一元数据服务视图,才能实现数据共享,避免其中额外的 ETL 成本以及降低链路的延时。
1.3 湖仓一体架构的出现
为了解决上述数据湖的相关挑战,2019 年左右,业界开始出现一种新的数据架构,叫做 DataLakehouse(湖仓一体),它同时吸收了数据仓库和数据湖的优势,能够在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据和权限管理。因此数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,为公司进行数据治理带来更多的便利性。
2 华为 lakeFormation 服务关键能力
华为 LakeFormation 是企业级的一站式湖仓构建服务,提供了数据湖元数据统一管理的可视化界面及 API,兼容 Hive 元数据模型以及 Ranger 权限模型,支持无缝对接多种计算引擎(Hive、Spark 等)及大数据云服务(MRS、DLI 等),使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值,是数智融合的关键基础设施。该产品具有以下关键能力:
丰富的元数据和数据权限管理
华为 lakeformation 支持 Catalog 和跨源管理,以及库/表/函数的集中管理,可解决多种不同元数据类型之间互有差异的痛点,无需再引入第三方 ETL 进行查看和管理,并实现了统一的细粒度数据权限管理,支持跨服务/跨集群的数据共享。
生态开放
华为 LakeFormation 兼容社区接口、支持平滑对接和迁移,提供了兼容 Hive/Spark/Flink/Trino 社区的元数据接口,支持计算引擎平滑对接,同时兼容 Ranger 的权限接口,支持一次授权,统一生效。
大规模、高可靠
华为 LakeFormation 支持处理海量数据业务,具有百万级超大规模元数据管理能力,以及多 AZ 的容灾能力,可为业务持续性提供稳定保障,且采用 Serverless 架构,开箱即用,简单易上手。
3 华为云 MRS 支持 lakeformation 创造数据价值
3.1 Lakeformation 给 MRS 带来的场景价值
以数智融合场景为例,当大数据用户在 MRS 中创建了表 T1 时, 数仓用户可通过 lakeformation 观察到表 T1 的元数据,并通过 DWS 写入正确的数据内容。
当 AI 用户希望通过华为 ModelArts 读取 T1 数据时,可借助 lakeformation 查看 T1 表,再进行 T1 数据的获取,整个过程中减少了 MRS 和其他产品联合协同运作时的复杂 ETL 操作,大大提升了数据使用的效率。
另外,当企业用户的安全管理员希望对不同 MRS 集群中同一业务类型的元数据进行 ranger 权限限制时,可通过 lakeformation 按下图所示的步骤进行操作,整个过程一次授权,统一生效,充分提高了管理效率,简化管理流程。
3.2 MRS 服务对接 lakeformation 能力展示
华为 MRS 用户可基于最新上线的 LakeFormation 数据连接能力,实现 lakeformation 实例的创建和授权。
在 MRS 控制台的数据连接页面,支持创建如下图所示的 lakeformation 数据连接:
建立完成 lakeformation 数据连接后,即可在 MRS 集群概览中,配置该数据连接,实现 MRS 和 lakeformation 之间的数据关联。
后续再根据产品资料指导完成 MRS 集群组件相关配置后, 即可正常使用 LakeFormation 统一的数据湖元数据及权限管理,实现元数据的管理互通、统一赋权,根据统一的元数据进行业务作业提交等。
当用户在 lakeformation 中针对 MRS 集群的 catalog 建立了 department 表后
其他用户可在对应 MRS 集群的 hive 客户端中观察这个 department 表的元数据。
反过来,用户通过 MRS 的 hive 客户端创建一个 employe 表后,可以在 lakeformation 中看到该元数据信息。
另外也可通过数据权限能力,修改数据表的权限策略,并直接同步到 MRS 的权限管理组件中。
4 总结
对云端用户而言,业务价值发现是最重要的,华为 MRS 支持 LakeFormation 后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/4c0fe28f62506c87a4b6dd3f4】。文章转载请联系作者。
评论