华为云 FusionInsight MRS:千余节点滚动升级业务无中断
摘要:滚动升级作为大集群数据底座的必备能力,能够完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的持续演进,业务无中断。
本文分享自华为云社区《华为云FusionInsightMRS如何实现千余节点滚动升级无业务中断升级》,原文作者:沙漏。
华为开发者大会 2021(Cloud)大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云 FusionInsight 解决方案架构师许田立,分享了“千级节点的大数据集群如何无业务中断升级”主题。
华为云 FusionInsight 解决方案架构师许田立演讲照片
数据量激增,可持续发展的数据底座尤为重要
随着 5G、IoT 技术的飞速发展,数据已成为重要的战略资源。据预测未来 4 年数据量将激增 4 倍+,达 180ZB,到 35 年呈 50 倍增长。同时,数据作为继土地、资本、技术、劳动力的第 5 种生产要素,已是数字经济发展的重要要素。但相关调查结果显示,企业运营中仅 56%的数据被存储,仅 32%的数据被利用。为应对呈指数级增长的数据资产,挖掘海量数据价值,政企客户采用大规模数据底座的需求越来越迫切。
众所周知,企业早期业务较小,各业务从数据集成到数据应用,系统自建,烟囱林立,伴随业务飞速发展,数据不统一、数据融合分析难、开发维护成本高等问题日益凸显,烟囱式的数据体系演进达到瓶颈。
为突破以上瓶颈,挖掘数据价值,驱动业务增长,传统烟囱式数据体系向统一数据湖架构演进,实现一致的数据清洁,做到同名同义,统一数据标准;通过一套技术架构减少维护成本;采用乐高积木式的指标体系,提升开发效率;拉通数据实现跨域融合分析,带来更多的业务创新。
立足于长远,大集群的数据湖架构不仅需满足当下,更应具备可持续演进的能力。
从技术角度来看,大数据开源、开放技术仍在蓬勃发展,以前,驾驭大数据“三驾马车”可转遍大数据的池塘,现如今,大数据技术已发展成一片海洋,社区已具有 100+开源项目,大数据技术创新进入深水区。现在大数据不仅限于 Hadoop 生态,已是多种主流数据处理技术的集合,在不同场景有着丰富的组件进行支撑。华为云大数据技术与世界同步,积极拥抱开源,汲取全球顶尖大数据实践经验。
从业务角度来看,大数据平台承载了海量数据各业务分析场景,其中更涉及多个关键业务,如运营商的对内收入稽核、对外广告精准投放,金融领域的反欺诈、精准营销等场景,服务连续性要求高,7*24 小时不中断;如何让大数据平台软件保持最新保本,实现最优的平台参数,达到最快的问题解决速度?这些都对平台运维部门提出了极高的要求。
为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为其中的必备能力。
滚动升级实现架构平滑演进,业务无中断
华为云 FusionInsight MRS 云原生数据湖提供超大规模集群,支持单集群 2 万+节点规模,并可联邦无限扩容,同时,从 500+节点集群的标配开始,华为云 FusionInsight MRS 云原生数据湖已提供滚动升级能力,截止目前升级成功率为 100%。
当然,滚动升级的成功并不是一蹴而就的,在其升级过程中也将面临如下挑战:
l 无处不在的兼容性:HDFS 作为一个分布式架构组件,涉及的跨进程的接口众多,在中间状态,涉及到新老版本交互的场景众多,每一种组合都存在兼容性问题;
l 可靠性:集群规模达到一定数量后,集群升级历时需数天,升级过程中需要应对各种突发事件,例如硬件的磁盘故障、网络拥塞等各种异常场景,面临这些挑战需要确保升级进度不受影响;
l 业务无中断:大数据平台承载企业多场景应用,升级过程中,关键业务不允许中断。
为了保障大集群升级过程的平滑,华为云 FusionInsightMRS 云原生数据湖团队提供了升级管理可视化服务工具,可以端到端分步骤的完成滚动升级,实现升级过程中的可视化控制和管理,并应对上述挑战,主要做了如下处理:
l 在接口中增加版本号,新版本客户端带上版本号标识;服务端提供两种 RPC 实现入口,在入口处进行消息格式不兼容的预处理,解决接口兼容性问题;面对社区大版本变更导致的不兼容问题,通过多版本并存的方式,解决滚动升级对业务的影响;
l 为快速处理升级过程中出现的硬件故障,提供了故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,使得故障处理和升级可以有序进行;
l 为降低在升级过程中对关键任务 SLA 的影响,提供了滚动升级暂停的能力,关键作业或者作业高峰时段,无论是同一批次内还是多批次间,都可暂停升级动作,保障关键任务平稳执行。
滚动升级不仅是一个升级动作,更是一个系统工程,华为云 FusionInsightMRS 云原生数据湖从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,通过滚动升级助力政企客户平台架构平滑演进。
工商银行实现首个金融行业 1000+大集群滚动升级成功
工行大数据平台的 Hadoop 批量集群已超过 1000 节点,日均处理作业 10 万+,数据存储数十 PB,承载了全行重点批量作业,其中包括反欺诈、精准营销等多个重要业务场景,服务连续性需求较高。而大数据技术迭代快,传统升级方式需断电、重启等操作,升级操作复杂,影响现网业务运行,且大集群升级耗时长,突发故障易中断升级动作。
大数据技术快速发展,为满足业务变化发展需求,工行采用了华为云 FusionInsightMRS 滚动升级方案,借助于大数据核心组件的高可用机制, MRS 按照依赖层次,多层次并行,在不影响集群整体业务的情况下,一次升级/重启少量节点,依据组件和实例的依赖关系,自动编排升级批次。升级过程中,隔离故障节点,待升级完成后,再进行故障处理。循环滚动,直至集群所有节点升级到新版本。
通过华为云 FusionInsight 滚动升级能力,实现大集群分批次滚动升级,业务 0 中断;故障节点隔离功能确保升级动作的稳定运行,实现 7*24 小时不间断服务;1000+精细化运维指标及可视化操作简化运维,实现一个架构持续演进。
结语
滚动升级作为大集群数据底座的必备能力,完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的持续演进,业务无中断。同时,华为云 FusionInsight MRS 云原生数据湖还将持续创新,做大数字世界黑土地,携手 800+ISV 为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/bfcdb610490db90618b2afbf0】。文章转载请联系作者。
评论