从实例出发,算力网络到底是如何编排的?
对于算力网络,未来可以应用的场景有很多,从国家的东数西算、东数西训、东数西存、东视西渲;到省内的工业视觉检测、智慧园区、智慧乡村等;再到面向个人的云游戏、云桌面等应用。算力网络能够以新的动力赋能于传统千行百业的解决方案,以更低的生产成本,获得更高的生产效率。
算力网络由“算”、“网”、“脑”三个部分组成,其中“算”即生产算力,“网”即连接算力,“脑”即度量、感知、编排和调度算力。其中,编排和调度作为算力网络的核心控制部分,亦为“算力大脑”的核心能力。
算力大脑统筹全局资源,重要性可想而知。
以工业视觉检测场景为例,某电力企业在经历自然灾害后,需要迅速对某省、市、区、县等各级分公司下辖的电力线路进行巡检。传统模式下,需通过固定监控摄像头、无人机、移动摄像机等设备获取的海量视频或图像信息,识别故障或隐患线路,第一时间组织抢修工作。这种情况恢复周期相对漫长,而恢复时长往往又和直接损失成正比。
如果基于算力网络,经过算力大脑的编排和调度,仅需通过以下四个自动化步骤,即可快速搭建一套视觉检测系统并投入运行,从而节约大量宝贵的黄金恢复时间,降低灾害损失。
根据该企业的灾复数据稽核要求,算网大脑利用其多量纲编排能力,基于距离、时效等原则,在灾复数据产生地的周边算力池分配算力资源;
根据视觉检测的要求,快速在已分配的算力资源上,通过云原生的编排能力,自动化部署 AI 检测应用;
接收灾复数据,通过相对应的 AI 检测应用进行风险检测并输出结果,用于指导灾复工作开展;同时,在根据运行过程的状态,实施进行动态算力调整;
最后,在检测工作完成后,根据预定策略快速地释放算力资源。
详细拆解来看,“算网大脑”的三个核心编排能力在其中起着至关重要的作用:
01 云原生编排能力
云原生编排能力指应用无需进行复杂的适配性改造,由算网大脑提供通用性编排框架,即可实现应用程序的自动、灵活、敏捷的部署,以及管理和扩缩容编排。通过提供镜像及应用管理、集群及节点管理、服务治理、访问安全管控、容器编排及调度能力,即可实现自动化集群部署、外部调用的均衡分发、敏捷扩缩容等,让应用程序不再需要进行复杂的分布式架构设计及规划,大大降低了技术门槛。
那么在算力网络中的容器编排调度能力,与传统容器调度会有哪些方面的区别?
首先,编排复杂度程度不一样。与传统容器引擎部署环境相对单一的情况不同,基于算力网络的容器引擎,不但需要应对涉及多云多边协调的复杂部署环境,而且需要去适配异构化的计算架构,保证在异构计算架构下高性能运行;甚至可利用编程芯片、DPU 等算网新技术手段,进行特定场景的优化加速。
其次,网络的复杂程度不一样。传统容器引擎,通常在一个相对封闭的内部网络之中,较为简单。而处于算力网络中的容器引擎,需要适配更为复杂的网络环境,例如由 SRv6、SFC、APN6、CFN、IFIT 技术组成的 SDN2.0 架构的算力感知网络。因此容器调度引擎需要针对此类网络环境进行适配与改造,发挥算力感知网络特性,实时进行应用程序的调度;例如可基于 SRv6 技术的网络切片能力增强演进,并增强资源感知与应用感知能力,调度可触达用户的广度更大和精度更高的算力资源。
最后,安全性要求不一样。算力类比电力,当社会算力并网后,如何保证正向对社会闲散算力的安全性管控,反向对调用方向适度且高效的认证和审计,是实现应用及其数据的关键要素。
02 多量纲的编排能力
算网业务的编排需要充分考虑应用的特性,算网资源的 QOS、安全、成本及能耗等多个量纲,实时进行业务编排,输出最合理的编排方案。实现最便宜的算力匹配最合适的应用。
从技术特性分析,多量纲编排引擎底层核心采用多属性决策算法,或称为有限方案多目标决策。由于算网业务的产品丰富性和资源灵活性,对于同用户同业务的需求,可以编排出不同的解决方案供客户选择,可以是安全性优先或者性能优先,也可以是价格优先等等。
从决策流程分析,算网大脑可以通过三个步骤精确给出最优、最匹配客户需求的编排方案。
首先,预设编排模型,按照性能、成本、能耗、安全 4 个纬度的不同占比,预设 5 个的编排模型,分别为综合模型、性能模型、安全模型、能耗模型、成本模型。例如:性能模型(性能权重最大,安全其次,能耗及成本最低)等;
其次,按照预设模型,按照相应的决策环境要求(业务诉求,性能诉求、价格要求等)及运行参数(算网运行感知参数)进行运算,计算出不同模型的得分;
最后,利用投票决策算法,针对备选方案进行二次计算打分,最终确定最优的编排方案。
03 运行态的编排能力
运行态编排能力是基于对算力网络实时感知能力进行的二次编排能力,算网大脑需根据算力网络的实时运行状态、应用的运行状态及业务并发量的发展趋势等维度的信息,综合给出应用程序使用的算力网络资源及部署,动态编排调整方案,以期更好地促进应用平稳运行。
运行态编排,前期利用从 PCPR 模型,从性能、成本、代价及回切周期可以分成扩容场景、缩容场景、切换场景、优化场景四类:
扩容场景:例如,某应用使用的算力资源为位于 A 市的 A 算力池的 4 台服务器。当访问该应用的请求增多时,可以动态在 A 算力池追加服务器,对应用进行动态的扩容,以满足高并发的要求。此为,简单的扩容场景。更复杂的情况,当需求来之 B 市,A 市与 B 市之间的网络质量要求无法满足该应用的要求时。可以在 B 市邻近的资源池 C 算力池调拨出部分资源,动态部署该应用的新节点,以方便来之 B 市的访问请求可以得到满足。
缩容场景的情况与扩容完全相反,不再赘述。
切换场景:以上述例子来描述。此部署在 A 市 A 算力池的某应用,但因算力池的故障或者网络等故障导致应用无法正常访问时。可以快速定位算力及网络环境达标的算力池,从中调配出算力资源,进行应用的应急部署,以进行快速的异常恢复。当然对于无状态的应用,可以快速地进行异地应急部署。但对于有状态数据的应用,需要有配套的数据备份机制,能够利用备份数据进行移动数据恢复,才能实现应用的跨算力池异地切换。
优化场景:指在运行中的某个应用,假设其应用部署在多个算力池中,从部署拓扑来看,呈现出网状的部署结构。可以根据感知的应用访问的响应情况、网络及算力池运行的性能数据,综合运算出其部署拓扑的调整建议,优化调整的范围包括同一算力池内的机器数量及配置等的调整,也可以包括跨算力池的部署结构调整。
后期,可以利用机器学习技术,针对历史的运行数据进行学习和分析,进一步丰富调度规则、校正调度的精度。
算力网络是实现“算力”基础设施化的一个重要载体。目前算力网络在标准路线、体系架构等方面仍处于起步阶段,一批重大原创成果和关键核心技术亟待突破。
作为运营商的长期合作伙伴,浩鲸科技针对算力网络创新性的提出完善的整体解决方案“BICN”,包括面向运营服务层的运营门户(即鲸旗门户)、面向编排管理层的算网大脑(即鲸睿大脑),以及负责泛在对接的套件(即鲸臂控制,包括多云管理、各专业控制器等)。
面向编排管理层,浩鲸科技“鲸睿大脑”已实现统一编排左脑、算网自智右脑及算网孪生底座等核心能力,结合 AI、大数据等多要素能力开展生态合作创新试验,为新业态下算网业务的智能化编排开通提供可落地解决方案,探索算力网络的创新应用和模式。相信伴随着算力网络的深度开发与新型基础设施建设,算力能够真正流动起来,并像电力和自来水一样能够实现随用随取,进而赋能全社会数字化转型。
版权声明: 本文为 InfoQ 作者【鲸品堂】的原创文章。
原文链接:【http://xie.infoq.cn/article/aa49712f8326d3d2577ebd259】。文章转载请联系作者。
评论