写点什么

解密华为云 FusionInsight MRS 新特性:一架构三湖

发布于: 2021 年 05 月 25 日

​​​​​​【本期推荐专题】物联网从业人员必读:华为云专家为你详细解读LiteOS各模块开发及其实现原理。



​​​​摘要:华为云安全网关产品总监郭冕在“华为云 TechWave 云原生 2.0 专题日”上发表《华为云 FusionInsight MRS,一个架构实现三种数据湖》的主题演讲,分享了智能数据时代的数据湖发展趋势、MRS 云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖,以及业务实践中的成功案例等。


本文分享自华为云社区《华为云FusionInsightMRS云原生数据湖,一架构三湖,解密华为云FusionInsight MRS组件新特性》,原文作者: IT 老磨。

 

5 月 20 日,华为云安全网关产品总监郭冕在“华为云 TechWave 云原生 2.0 专题日”上发表《华为云 FusionInsight MRS,一个架构实现三种数据湖》的主题演讲,分享了智能数据时代的数据湖发展趋势、MRS 云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖,以及业务实践中的成功案例等。

进入智能数据时代,业界建设数据湖的十大共识



​经过数十年的快速发展,大数据处理技术已日渐成熟,围绕数据仓库、数据湖衍生技术多如繁星,业界在多年的探索之中,也对未来数据湖形态有了十个重要共识,湖仓一体成为智能数据湖的首选架构。为应对智能数据时代对大数据技术提出的新挑战,华为云 FusionInsight MRS 云原生数据湖进行全面升级,引入了 Hudi、ClickHouse 热门组件,加强了自研的 HetuEngine 虚拟化引擎,同时新增 IoTDB 时序处理的能力,拓展数据使能应用的边界。

华为云 FusionInsight MRS 云原生数据湖



​华为云 FusionInsight MRS 云原生数据湖为政企客户提供湖仓一体、云原生的数据湖解决方案,构建一个架构可持续演进的离线、实时、逻辑三种数据湖,支撑政企客户全量数据的实时分析、离线分析、交互查询、实时检索、多模分析、数据仓库、数据接入和治理等大数据应用场景,使政企客户高效用数、简化用数,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。


  • 离线数据湖:提供交互式、BI、AI 等多个计算引擎,采用 OBS 实现存算分离,使得云原生数据湖的架构更灵活。支持单集群 2 万+节点的超大规模,通过集群联邦,可支持 10 万+规模。支持滚动升级,保障关键业务升级不中断。


  • 实时数据湖:通过 Hudi 支持 ACID 数据实时增量入湖、ClickHouse 毫秒级 OLAP 分析等构建实时更新处理能力,使得供数时效从 T+1 到 T+0。


  • 逻辑数据湖:HetuEngine 提供跨湖、跨仓、跨云的协同分析,实现湖仓一体,减少 80%数据搬迁,协同分析提效 50 倍。

一架构三湖新特性,覆盖数据分析全流程


  • Hudi:增量实时入湖,实现数据入湖时效快、开发易、性能高、资源利用率更高

      

传统数据湖不支持数据更新,导致数据采用 T+1 离线处理模式,完全无法满足灵活多变的业务诉求,针对数据时效性问题,华为云 FusionInsightMRS 云原生数据湖引入 Hudi。

      

Hudi 可以支持数据更新、数据删除,还有 ACID 保证,保证数据实时入湖更新操作。它提供多种视图,包括读优化视图、增量视图、实时视图,可以对不同的分析应用提供不同的视图,基于这些技术可轻松实现增量表、拉链表,镜像表这些数据存储模型。引入 Hudi 后,带来四大显著效果:


1.   数据时效更快:在业务系统,通过 CDC 的系统实现分钟级数据入湖,数据时效性从 T+1 到 T+0。


2.   处理性能更高:面对数据有删除、更新的场景下,传统采用 Hive 更新方式,仅处理一行数据也可能需要对整个表,至少要对整个分区进行处理,引入 Hudi 后处理效率提升 10 倍+。


3.   开发更简单:对于开发人员来说,传统数据入湖不支持更新或者删除,开发人员需新建临时表,将数据处理后再进行覆盖,对同一个任务可能需要写很多代码去完成,有了 Hudi 的加持之后,做一个数据更新的操作就跟使用数据库一样简单,单条语句即可完成。


4.   资源利用率更高:传统 T+1 的模式并不是 24 小时跑任务,而是在晚上进行批量加工,早上出报表,整个处理过程中,计算高峰期仅晚上跑批的时间,而资源却是按照高峰期的计算需求来配比,导致白天的资源利用不足,引入 Hudi 后,数据实时采集入湖,把入湖处理的工作分散到全天的过程,实际上把整个资源消耗的高峰和低峰抹平掉。

 

某金融客户基于 Hudi 构建数据湖,数据入湖时延降至分钟级,且白天资源利用率提升 2 倍+,数据处理效率提升 50%,开发人员通过单条语句即可完成开发,简化开发难度。


  • ClickHouse:实时 OLAP 引擎,实现报表全自助高性价比的实时分析

      

传统的 OLAP 引擎因其处理能力有限,数据一般按照专题或者主题进行组织后再与 BI 工具对接,导致 BI 用户和提供数据的数据工程师脱节。比如 BI 用户有一个新的需求,所需的数据没有在专题集市中,需要将需求给到数据工程师,以便开发相应的 ETL 任务,这个过程往往需要部门间协调,时间周期长,协作效益低。

      

现在,华为云 FusionInsight MRS 云原生数据湖可以将所有明细数据以大宽表的形式加载 ClickHouse,BI 用户可以基于 ClickHouse 大宽表进行自助分析,对数据工程师供数要求少,甚至在面对大部分新需求时,无需重新供数,开发效率和 BI 报表上线率都会得到极大提升。同时,ClickHouse 在一张表里的数据分析可达毫秒级。

      

基于 ClickHouse 实现自助 BI 在华为内部实践也获得了很好的效果。华为集团 HIS 数据湖原来基于传统 OLAP 引擎建模,受限于开发效率,几年才上线了几十个报表。在引入 Clickhouse 后,三个月时间开发上线了 400+报表,业务上线效率提升 50 倍。目前,华为内部 ClickHouse 的整体使用规模已经达到 2000+节点,数据量规模达 10+PB,日增数据量 100TB。


  • HetuEngine:数据虚拟化引擎,突破地理限制,打破数据“墙”

      

伴随企业发展与数字化转型的需求,企业业务越来越复杂,创新需求越来越高。单系**立工作难以满足业务的变化需求,企业内可能同时存在多个湖、多个仓、多个系统,但传统方案烟囱式建设,湖仓之间、多引擎之间无直接的互联互通能力,需要通过 ETL 数据来回搬迁,造成数据流转链路长,数据多份冗余,产生数据孤岛。系统多份数据冗余也难以保证数据的一致性和可靠性。

      

为了让数据使用更简单,跨湖协同更容易,解决湖仓数据割裂的问题,华为推出了数据虚拟化引擎 HetuEngine,实现跨湖、跨仓和云上、云下、多云协同分析的能力,突破地理限制,打破数据“墙”,跨湖协同分析效率提升 50 倍,跨仓协同分析减少 80%的系统间数据搬迁同步,分析性能从分钟级提升至秒级。

      

金融某行通过引入 HetuEngine 数据虚拟化引擎,在数据湖查询分析方面该行提升了并发能力,仅 1/5 的资源即可支持 45 并发,峰值并发最大达 200QPS,平均时延优化到 8 秒;在湖仓协同分析方面,通过 HetuEngine 打通数据湖与数仓间的数据壁垒,湖仓协同分析性能从分钟级提升至秒级,同时减少 80%的系统间数据搬迁同步,大大提升数据治理效率。


  • IoTDB:时序数据库,云边端协同轻松构建时序数据集市


时序数据具备两大特点:在端、边、云都有处理,时序数据采集后不需要更新。传统时序处理方案中,在端、边、云采用不同的技术栈,异构的技术栈必将带来数据处理的复杂性。清华大学开发的时序数据库 IoTDB(又称时序引擎),通过统一的时序数据文件格式 TsFile,实现一份数据兼容全场景,一套引擎打通云边端、一套框架集成云边端。华为跟清华大学保持紧密的合作,最新发布的 IoTDB 集群版本,就是华为与清华主导开发的一个版本。

      

在上海、成都、重庆等城市均已采用 IoTDB 管理地铁监控数据,原本 144 辆列车需要 9 台服务器,现在仅需一个 IoTDB 实例即可满足要求,测点的采样时延也从原来的 500ms 降至 200ms,日增 4140 亿数据点管理,大大提升资源利用率。

结语

      

目前,华为云 FusionInsight MRS 云原生数据湖携手 800+生态伙伴,已服务于 3000+政企客户,广泛应用于公用事业、金融、运营商、能源、医疗、制造、交通等行业。


点击关注,第一时间了解华为云新鲜技术~

发布于: 2021 年 05 月 25 日阅读数: 105
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
解密华为云FusionInsight MRS新特性:一架构三湖