跨湖跨仓场景下如何实现海量数据分钟级分析
集大会演讲、圆桌讨论、精彩活动及现场直击....一大波华为开发者大会 2021 干货资料来喽~~!还等什么快快来领取技术福利!点击立即领取
摘要:华为开发者大会 2021(Cloud)大会期间,华为云 FusionInsight MRS 云原生数据湖 HetuEngine 架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。
本文分享自华为云社区《华为云FusionInsightMRS跨湖跨仓场景下如何实现海量数据分钟级分析》,原文作者:沙漏。
华为开发者大会 2021(Cloud)于 2021 年 4 月 24 日-26 日在深圳成功举行。本届大会以 #每一个开发者都了不起 #为主题,为众多开发者带来一场 ICT 方面的技术盛宴。
大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云 FusionInsight MRS 云原生数据湖 HetuEngine 架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。
华为云 FusionInsight MRS 云原生数据湖 HetuEngine 架构师武文博演讲
传统大数据平台融合分析存在数据墙、数据难打通、数据协同慢三大问题
随着大数据技术的应用和发展,数据种类越来越多,分布越来越广,查询场景也越来越复杂,尤其在新兴业务中,需要在一个平台上使用离线分析、实时分析、图分析、文本分析、交互式查询等多种引擎,多元异构的数据融合才能盘活数据,通过数据挖掘开发数据价值,发挥数据作为生产要素的作用。而传统大数据平台在应对数据融合分析时逐渐显露疲态,存在如下问题:
多数据源间存在数据墙:Hive、HBase、MPPDB、Oracle….数据组件众多,组件间形成“数据墙”;为了应对不同场景的需求,数据重复存储到多个数据组件:Hive(历史数据),HBase(原始数据),MPPDB(专题数据),管理复杂,耗费存储空间;
多中心数据难以打通:各类分析应用只能基于本地数据;用外中心数据做碰撞分析需要先搬迁到本地,操作复杂,效率低;异地数据加工需要在当地部署和维护加工平台,架构复杂;
多数据中心难以形成合力:数据集中在主中心,造成主中心负载畸高,分中心却空闲严重;紧急任务需要迅速处理,却因为分中心数据还未同步,无法分析;多数据中心和多集群的计算和扩展能力远远强于单个中心,但由于跨数据中心访问技术基本处于空白状态,业务只能依靠单中心支撑。
简化用数,HetuEngine 统一接口,跨湖跨仓跨云协同分析从数天降至分钟级
为了让数据使用更简单,跨湖协同更容易,解决上述三大问题,华为推出了“HetuEngine”,于 2019 年 11 月发布,2020 年 6 月正式开源(开源名称 openLooKeng)。HetuEngine 是统一高效的数据虚拟化引擎,与大数据生态无缝融合,实现海量数据秒级查询;业界首创多源异构协同,实现一站式 SQL 融合分析。
HetuEngine 具备如下特性:
高性能交互式查询:传统大数据通过 Hive 引擎构建即席查询任务,查询时间长, HetuEngine 通过启发式索引和执行计划 Cache,实现秒级查询响应;
跨湖跨仓跨云融合:传统数据分析需先统一数据格式,HetuEngine 可实现不同数据格式间的 join,减少数据搬迁,较传统方案提效 30%;传统 DC 分析要建手工摆渡数据,HetuEngine 可通过 DC Connector 进行连接,数据全局可视,协同耗时从数天缩短至分钟级;
多引擎融合:传统大数据在进行多引擎组件开发时,需涉及多组件定制开发,HetuEngine 可统一 SQL 接口访问大数据,降低用数门槛,开发提效 2-10 倍。
目前,华为云 FusionInsight MRS 云原生数据湖为政企提供湖仓一体的解决方案,一个架构可构建三种数据湖:离线数据湖、实时数据湖、逻辑数据湖。其中逻辑数据湖通过 HetuEngine 提供跨湖、跨仓、跨云统一访问,减少数据搬迁,数据高效流动,全域数据分钟级协同分析,业务上线效率提升 10 倍,由周级缩短至天级。
HetuEngine 已在各行各业大规模使用,下面一起来看 HetuEngine 在金融领域的典型场景实践。
工商银行基于 HetuEngine 实现即时 BI,加速金融数据湖的灵活数据探索
工行金融数据湖承载总行及分行全量原始数据,供全行数据分析师进行数据探索分析。目前日查询量 5000 条,查询数据平均 10 亿行,最大可达百亿行,伴随数字化转型进入深水区,多样性业务诉求对数据融合分析提出了更高的要求。
在某些场景中,金融业务需要在数据湖内先使用批处理技术对原始数据加工成专题数据,然后跨集群搬移数据集市,再从数据集市上做 BI 分析。传统大数据平台中,SAS 等工具通过 Hive SQL 访问数据湖数据性能差,平均响应时间 5 分钟~2 小时,并发能力不足 10,且湖仓数据割裂,将数据加工后加载到 OLAP 集市,数据链路长,分析效率和开发效率都很低。
该行通过华为云 FusionInsight MRS 云原生数据湖提供的 HetuEngine,解决了数据湖与数仓间的数据协同分析问题,避免了不必要的 ETL。
通过 HetuEngine 数据虚拟化实现湖仓互联互通协同分析;
避免不必要的 ETL 流程,减少数据搬迁。
通过引入 HetuEngine 数据虚拟化引擎,在数据湖查询分析方面该行提升了并发能力,仅 1/5 的资源即可支持 45 并发,峰值并发最大达 200QPS,平均时延优化到 8 秒;在湖仓协同分析方面,通过 HetuEngine 打通数据湖与数仓间的数据壁垒,湖仓协同分析性能从分钟级提升至秒级,同时减少 80%的系统间数据搬迁同步,大大提升数据治理效率。
结语
HetuEngine 作为统一高效的数据虚拟化引擎,打通了多数据源间的数据墙,实现高性能跨湖跨仓跨云数据融合分析,同时,HetuEngine 提供统一访问入口,屏蔽了传统复杂的访问接口,并统一使用 SQL 接口,降低大数据使用门槛,简化用数!
华为云 FusionInsight MRS 云原生数据湖还将持续创新,做大数字世界黑土地,携手 800+ISV 为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/7f42b2b64799fce768efbfc25】。文章转载请联系作者。
评论