焱融为国家电网打造存算一体的融合基础架构 助推能源行业新基建
“人类发展史就是一部利用能源的历史”,从钻木取火到核电站,乃至最近的新闻爆点“可控核聚变”,人类掌握能源的能力就是人类文明发展的象征。在经济发展中,电力作为所有经济活动的基础支撑,小到居家办公,大到铁路交通,从动力照明到智能 AI,都离不开电力支持,而电力系统作为电力输出的“基础单位”,成为诸多产业发展的“地基”。如今电力系统已顺利迈入信息化、智能化时代,发展阶段从规模化发展进入了区域电网互联阶段。
电力系统业务背景
电力系统设计与时俱进,从原始的笔纸作图到现在的专业工业设计软件,在设计的复杂度和效率上都有巨大的提升。从业务建设角度看,电力系统的功能越来越多,这使得在系统的设计上也越为复杂,这包括从超高压输电网络到配电网络的设计,以及整体工程和产品设备的设计等。从业务产生的数据角度看,电力系统的数据量随着规模的壮大也同步增长,从 2D 设计作图的图纸形式到如今 3D 工业设计软件,一个电力设备在设计 3D 模型时可拆解为几百到上万个配件,这类设计模型通常数据量在几十 MB 到几个 GB 之间;而在模拟仿真验证阶段所产生的数据量更是指数级的增加,因为仿真过程会产生大量环境数据和各种物理量数据,例如力学量、电磁学量等,通常验证数据量累计达到 TB 以上,而大量的产品设计模型数据和验证数据就是乘积的数据量。所以从数据存储的需求上已经呈现出猛增态势,这些数据形成了宝贵的电力行业产品数据库,庞大的数据量催生了成熟的产业体系。
国家电网大规模业务数据平台建设思路
在电力系统建设愈加成熟的形式下,业务对电力设备的设计成果要求更高,业务希望设计制造环节能够更加效率,而提升效率最根本的办法是采用先进的设计软件以及匹配这些业务软件的 IT 平台,其中 IT 平台包含三大核心能力,即计算、网络、存储。随着电力行业的数字化建设推进,越来越多的技术应用到电力行业中,以提升整体效率,降低建设成本,其中包括诸多主流 IT 技术用于基础建设,如本项目建设指导意见提出的融合部署建设技术、容器化计算技术、GPU 加速技术、分布式高性能存储技术。除承载电力设备设计以外,这些技术还能够支持更多其他业务系统的运行,IT 平台需具备一定的广泛适用性,最大化提高经济适用能力,从而提升电力系统的综合实力。
本次建设是国内省级统一规划运行国家电网项目,省中心及下辖 13 个地市数据中心,承载的业务系统包括“数字孪生”、“人工智能中控平台”、“电力设备设计系统”、“输变电工程监控系统”等专业业务系统和通用办公系统。
由于业务系统众多,文章篇幅有限,此次我们列举其中的几个业务板块来分析其业务特点。
业务板块一
本次项目建设中的电力设计系统中大量采用了工业设计 3D 仿真软件,比如:Solidworks, 3Ds Max,CATIA、Rhino、Cinema4D、VRay 等;同时还使用了专业的电力软件,包括:BPA 和 PSASP,PSS/E,EMTP/ATP。这两大类软件基本构成了电力设计主要应用范畴,业务需求对 IT 的计算、网络和存储都提出了高性能的要求,尤其在 3D 仿真应用下,数据量增长和高性能需求尤为明显。
大量 3D 文件模型设计,需要较高的带宽读需求;
设计过程中使用的 VDI 桌面的业务系统需要大量共享和并发需求;
数据范围从图形到设计和渲染,以及仿真的状态量文件(小文件+大文件),共存优化;
对于业务增长带来的数据量增长,长期管理问题;
业务板块二
此次建设的“数字孪生”和“人工智能中控平台”是典型的 AI 应用场景,对海量数据存储和计算有着较高的要求,通过 AI 辅助管理业务,并且数字孪生要实现 1:1 的业务模拟还原,这个过程会产生大量的数据,尤其是多维度的反映事件状态信息。
“数字孪生”业务中小文件和大文件的数据量随业务的增长猛增;
“人工智能中控平台”在 AI 辅助下需要处理大量的业务数据交互,这个过程会产生海量小文件;
业务板块三
“输变电系统”设计应用了更多的 3D 电力设备和整套电气设计要求,其中以输变电站为例,业务流程中包含以下几部分:
三维精细化设计
仿真验证物理模型
全套专业计算与校核
生成全专业施工图
数字化移交成果
在“输变电系统”设计流程中,设计软件在加载过程中会读取大量的数据,在计算过程中会产生一定量的临时数据;当完成建模进入到仿真验证环节,又会产生大规模的仿真验证数据。这些数据作为最后分析设备各种属性的依据,数据维度越多,分析就越准确,目前这类技术规范在行业中成为主流做法,全面完成设备全流程设计和验证工作,很大程度降低了时间周期和整体成本投入。从“精细化设计”到“生成专业施工图”的过程中,都需要数据共享;
业务板块四
在此次项目建设中除了需要满足前几个大业务板块的业务特性要求,也需要同时满足常规办公业务系统的使用。本次建设省数据中心和地市数据中心共计 13 个,每个数据中心的专业业务系统有所差异,但常规办公业务是统一的系统,需要支持各部门的办公业务存储需求。
综上分析,电力系统业务对 IT 基础建设的需求有以下几点:
计算、存储融合部署,采用主流技术、满足业务泛用性、扩展性和经济性;
业务系统数据量庞大,且有 AI 业务类型和工业设计类型数据,对性能要求严格;
设计业务系统和数字孪生等系统,要求数据具备高性能共享能力;
整体建设应保证高可靠性要求,保障业务系统稳定运行;
构建电力 IT 平台在综合应用环境下的高效存储
结合国家电网的业务需求,此次采用融合部署的方案,即通过焱融分布式文件存储系统 YRCloudFile 承建该项目中的存储平台,通过秒云的容器云产品,实现计算平台的搭建,整体融合部署采用 X86/ARM 硬件平台,符合项目建设的选型要求。
在存储平台建设中,焱融高性能分布式文件存储 YRCloudFile 由于采用了分布式存储架构,数据存储可弹性扩展,可扩展的数据量达到 EB 级,元数据规模可达百亿级别,完美承载了当前业务的生产要求和未来业务的扩展需求,同时兼顾性能稳定性。容器化计算和分布式存储等多项主流技术搭建的 IT 基础平台,实现了容器持久化存储,GPU 虚拟化计算以及业务数据生命周期管理等功能。整体平台建设方案特点如下:
采取融合架构
计算平台采用秒云容器化计算,存储平台使用焱融高性能文件存储 YRCloudFile,通过 CSI 接口将 YRCloudFile 文件存储空间提供到容器计算,以实现容器持久化存储能力,并且提供如 QoS、配额、热点追踪等功能,满足高效能的计算调度和海量数据高性能支持。
由于计算和存储采用融合部署技术,硬件平台选用标准服务器硬件,大大降低运维后端备件压力,确保业务长期稳定运行。同比传统方案,硬件支出成本降低 40%,耗电和机房空间降低 50% 以上,通过融合部署极大的压缩了用户成本支出。
满足高性能业务
业务系统“3D 电力设备设计”、“数字孪生”、“人工智能中控平台”、“输变电系统设计”具有相同业务特性,对数据的计算和存储的读写有很高的性能要求,为了能够充分发挥计算能力,存储端采用了 YRCloudFile 高性能文件系统。由于 YRCloudFile 文件系统提供私有客户端的 POSIX 协议,可以满足计算层 GPU 和 CPU 高性能吞吐要求。YRCloudFile 元数据设计采用了分布式结构,在百亿级文件数量下,保持性能稳定。YRCloudFile 文件存储相比传统存储架构,业务效率可提升 75%,设计过程耗时由一周左右压缩至 2-3 天完成。
数据共享能力
在此次建设应用系统中,计算集群需要共享数据,YRCloudFile 是文件存储类型,天然具备数据共享能力,提供标准的 NFS/SMB 协议。除此之外,还可提供私有客户端协议,CSI 接口等,可以满足 TCP 协议下数万个并发挂载使用,同一份数据可通过权限管理共享给用户,避免传统的数据孤岛。
高可靠
秒云容器云和焱融 YRCloudFile 文件存储均是分布式全对称部署架构,具备高度冗余性,秒级完成容器计算切换过程,响应程度高,对业务无影响。同时,在硬件选择上,采用标准化企业级硬件,具备企业级服务标准,99.99999% 可靠性。
平台方案建设架构图
在数据即资产的数字化建设认知下,存储平台搭建作为整体 IT 基础设施中最重要的一环,需要满足多种需求,由于采用分布式存储架构设计,在海量数据量场景中保持性能持续稳定是本次建设的核心驱动力。“数字孪生”、“人工智能中控平台”、“电力设备设计”这些业务场景承载着海量数据,对存储的要求由“存起来”变成“存起来”+“存取要快”,在业务系统中普遍存在大量小文件,传统存储的读写性能成为瓶颈,而 YRCloudFile 分布式文件系统采用了分布式元数据技术能够很好的解决小文件快速存取的性能问题。
在混合文件场景下,YRCloudFile 将大文件和小文件混合场景进行综合优化,无论是存取小文件还是大文件,都能释放性能优势。本次建设的存储接入网络上线测试可跑满带宽,且 YRCloudFile 兼容所有主流网络协议和设备,最大可支持 200Gb IB 网络叠加,用户可根据业务需要选择合适的网络设备和方案。
焱融 YRCloudFile 并行文件架构采用元数据高性能设计和数据缓存技术,面向海量数据场景,适配本项目中的 3D 电力设备设计,变电系统设计、人工智能业务场景;同时,采用提供包括 CSI、POSIX、NFS/SMB 等多种协议接口,作为容器计算持久化存储,可将存储特性充分发挥,通过 WEB 监控来实现多项监控,满足用户日常运维要求,实现数据全生命周期管理。
秒云容器云基于 Kubernetes 为核心底座,实现集群管理、多租户管理、Linux 和 Windows 应用全生命周期管理、容器和虚拟机统一管理、共享 GPU 调度、CI/CD、微服务治理等功能和服务。采用 GPU 调度技术,最大化利用 GPU 算力资源,避免算力资源浪费。
展望
在本次电力系统建设中,从用户反馈和实践可以看到,电力能源行业经过多年转型已经从传统模式向智能化、数字化方向落地,并且业务中大量运用了 3D 技术、人工智能技术,这些业务都要依托海量数据的支撑,数据即资产已经深入到行业,成为生产力不可或缺的一部分,有效利用业务数据创造价值才是 IT 基础建设重点发力方向。
在存储选型时,企业需要考虑数据的高效管理和扩展需求,业务才能长足发展。存储平台在本次建设中广泛适用性明显,对存储的综合能力要求更加全面。在部署专业业务系统的同时,还需要部署常规办公系统,焱融 YRCloudFile 文件存储既具备超高性能的特性,又具有高扩展,易用性的属性。让用户真正感受到好的存储“不挑”业务,适用性好,为客户实现降本增效。
版权声明: 本文为 InfoQ 作者【焱融科技】的原创文章。
原文链接:【http://xie.infoq.cn/article/e3832b1ed84ea6a1b9069f275】。文章转载请联系作者。
评论