华为云瑶光:打通云边端界限,为企业云上业务带来最优解
摘要:华为云瑶光作为面向云、AI、5G时代的分布式云操作系统,承载未来“分布式、确定性、多维智慧”的云,致力于打造“极优、极简”的云上体验。
未来云的形态,不再是集中式的,也不是多个区域的,而是“云中心+云边缘+云终端”的协同。海量节点,海量连接,海量计算都将为企业云上业务带来了挑战。打通云、边、端的界限,根据不同的垂直行业应用,就调度不同的“云-边-端”来处理,快速响应各行各业的需求,提供“端到端”的算力、时延、体验保障。
华为云瑶光作为具有超强的云边协同能力的平台,在5G+云+AI时代充当着“大统帅”的角色。华为云瑶光系统为企业在云基础服务的创新过程中遇到的痛点,计算资源碎片的优化提供底层的技术支持。同时,瑶光的推出也在重新定义云服务的标准。
随着技术和市场的发展,众多企业在发展的过程中,都会逐渐的扩大企业规模、产品不断出新、业务复杂度的增加等问题。以华为云为例,当前华为云面临多维经营挑战:
1) 规模大:华为云布局全球多个地理区域和可用区,提供高速稳定的全球云联接网络、贴近客户的本地化服务;
2) 资产多:华为云的资产种类和数量多,包含模块化数据中心、海量服务器设备、复杂组网及线路等;
3) 产品种类丰富:华为云面向用户提供200+云服务、190+解决方案、3500+云市场商品等;
4) 用户业务复杂:承载300万+企业用户与开发者多样应用,涵盖AI应用、AR/VR、云游戏、云手机等;
5) 经营流程复杂:包含从数据中心、机房机柜等基础设施建设,到服务器生成、物流发货、上架部署等资源池建设,再到虚拟化、大规模分布式调度、资源池动态优化、产品和服务多样化以及弹性供给等调度和服务能力。
为此,华为云瑶光基于现网资产经营、客户支撑、产品研发上线等经营活动,构建了智能分析与规划平台,并基于此催化出新的经营和产品能力。
图2 瑶光智能分析与规划平台架构
五大系统,激发云服务能力
瑶光智能分析与规划平台包含如下核心子系统:数据采集和对接子系统、数据存储和服务子系统、数据分析和建模子系统、资源池经营子系统、业务创新子系统。接下来将依次展开介绍。
数据采集和对接子系统
子系统向下对接华为云全球的基础设施,对海量资产的监控数据进行实时采集和动态分析优化;对复杂的流程(例如规划、建设、运营、运维等)进行信息化和数字化;对产品和服务的管控面数据进行对接,获取服务能力和质量。
图3 数据采集和对接子系统
为保证数据的全面性、准确性、多样性,数据采集子系统提供如下主要能力:
1) 分布式数据采集和对接:数据分布在全球各Region,数据采集也是分层、分布式部署,以此满足数据分布式采集和对接的能力;
2) 安全的数据采集和对接:数据源系统不能由于对接出现故障,采集和对接需进行流控,以降低对数据源系统可靠性的影响。
数据存储和服务子系统
数据存储和服务子系统将采集到的海量数据进行分布式存储。由于经营各模块产生的数据格式差异较大,存储模块提供了数据降噪、降维、压缩、清洗等预处理功能,通过对数据的时间序列化处理为周边系统提供数据服务。
图4 数据存储和服务子系统
该子系统通过不断积累数据,构建了包含故障经验模式库、经营操作模式库、调度优化数据库、监控画像模式库等在内的关键数据资产,助力运维和运营水平的提升。
数据分析和建模子系统
数据分析和建模子系统提供了大数据和AI算法的运行环境,业务专家、算法和模型专家基于此进行了数据探索,算法和模型开发运行通过插件化、任务调度管理能力,使得周边系统可快速处理数据并获取结果。
图5 数据分析和建模子系统
更进一步,该子系统支撑了多种不同运行环境、不同语言编写的算法,通过多版本管理、参数配置自动化推送、仿真迭代自学习等,提升算法和模型的上线效率和智能化水平。
资源池经营子系统
资源池经营子系统面向资产经营、运维、客户支撑、产品研发、算法模型等团队提供资源池的经营管理能力。通过指标大屏、管理Console、报表等实现全面、实时查看资源池的经营状态。
图6:资源经营池子系统
该子系统在实际经营过程中,构建了全面的分析能力和指标体系,例如:
(1)面向资产精细化经营:分配率预测、闲置分析、供货分析等
(2)面向高性能分布式调度:热点分析、碎片分析、调度性能等
(3)面向高可靠运维:故障智能分析、资产健康度打分、上线效率分析等
业务创新子系统
为进一步发挥数据的价值,业务创新子系统通过分析和推荐能力,驱动已有产品的创新和改进,提供新的产品和服务供用户使用。
图7:业务创新子系统
目前,基于瑶光智能分析和规划平台驱动的示例都已经在有了应用。正如开篇所提到的竞享实例,为了方便用户选购适合的产品,瑶光平台的智能推荐结合大数据分析,提供了产品购买建议,后续结合画像、多元算力匹配等高级功能,即将提供更加高级的推荐能力。
在硬件产品上,华为云将瑶光智慧云脑应用在HECS(云耀云服务器)上。我们知道,HECS是华为云推出可以快速搭建应用、简单易用的新一代云服务器。结合瑶光的技术支持,HECS更是为用户打造了“极优,极简”的云上体验,全面释放技术红利。
随着5G、AI、IoT等新兴技术规模化的普及,将会有更多应用依托云计算来提升体验,加快企业数字化转型。好产品更应该让更多的用户使用到。在去年的11月份,华为云对外宣布将瑶光智慧云脑系统正式商用。瑶光作为面向“5G+云+AI”时代打造的智慧云脑,为了更好地帮助用户,瑶光平台的五大关键能力全面激发华为云能力,提供更优服务,助力用户应对未来挑战:
01全域调度:让云来到身边
面对万级站点、百万级主机的分布式云形态,瑶光通过全域调度能力打通云、边、端的界限区隔,实现国、省、市、县的全域覆盖,以就近接入的方式为客户带来大幅的带宽成本节约与10倍服务部署效率的提升;低至5毫秒的时延圈,可为自动驾驶、AR/VR、工业互联网等极低时延要求的场景提供技术保障。
02动态协商与治理:确定性背后的分秒必争
在端与云的每次交互过程中,每比特数据都将途经广域网(如5G)、边缘站点、数据中心,再经过一系列应用处理、优化内核处理、软硬件加速引擎、高速存储等1000+微服务来进行复杂而精细的处理。
瑶光通过全链路动态协商与治理保障了各模块间的有机协同,实现毫秒级调度与决策、微秒级IO处理能力,为客户提供确定性低时延及业务零抖动保障。
这也更适合未来5G时代,企业关键应用上云的确定性、低时延需求,如工业控制、自动驾驶、实时风控等。
03多目标优化:让“鱼”和“熊掌”可兼得
随着客户对性能、稳定性、可靠性等需求维度的增加,模型求解的复杂度也将呈指数级增长,传统的算法和算力难以在有限的时间完成求解。
瑶光依托多目标协同建模自研A-DNN算法,利用Atlas900最强计算集群,突破多目标最优化求解的难题。
此外,通过资源精准画像与自学习能力,瑶光将提供智能优化建议、智能调优和智能购买服务,为客户提供极优、极简的云上体验。
04多样算力智能匹配:赋予云上业务最优解
Cloud2.0时代,企业应用上云进入爆发期,应用多样性时代需要多样算力来承载最合适的负载,以获取更高效率和性价比。
华为云拥有包括鲲鹏、昇腾在内的业界最丰富的算力资源和不同粒度的算力封装,满足灵活多变的业务诉求。
其中,移动应用优选的鲲鹏算力可实现十倍并发性能提升,且对于客户各阶段成本和持有周期诉求,瑶光可推荐最佳商业模式,最佳算力,最佳框架选择,做企业最佳的技术伙伴。
05全栈可信,提供更中立安全的云服务
• 技术上,华为云业界独家拥有从底层芯片(鲲鹏,昇腾)、到整机(服务器、存储),再到操作系统、中间件、数据库全栈可控的产品和技术,并拥有超过八万条的故障经验模式库;
• 服务上,华为拥有30年服务大企业客户的经验与积累,华为云原生自带企业级可靠性基因,可以提供更懂企业诉求的、端到端的可靠服务。
瑶光不断完善智能故障预测及自愈能力,通过时空分布故障预测AI算法,使硬件故障率下降70%,多重措施保证云上业务运行稳定性。同时,华为云已通过全球50+合规认证、已上线云服务100%安全特性覆盖,是企业业务最放心的运行环境。
面向云+AI+5G时代,业务的创新也在驱动云服务提供商加速创新。华为云瑶光支撑华为云经营朝着更加精细化、智能化、创新化的方向前进,从而为客户提供技术领先、稳定可靠、安全可控、开放创新的全栈智能云服务。
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/0a0566d5418fe70600fa92c6c】。文章转载请联系作者。
评论