写点什么

与时俱进,京东云高性能计算平台

  • 2024-12-13
    北京
  • 本文字数:1883 字

    阅读完需:约 6 分钟

作者:京东科技 林顺利

持续演进的高性能计算

高性能计算是利用超级计算机实现并行计算的一门技术。通过使用大量通用型计算节点搭建阵列式计算集群,替代单体超级计算机的方式,来实现并行计算加速,已成为高性能计算的通用方案。


经过多年发展,高性能计算已成为各个领域解决复杂计算和进行大规模数据分析的技术底座,如 汽车和航天行业通过空气动力模拟来提升燃油效率、能源行业通过分析地震和地质数据来实现石油勘探、医药行业通过药物筛选和蛋白质结构模拟来加速新药研发、气象行业通过卫星 雷达和探空数据进行计算模拟来预测气候。


近年来人工智能和机器学习迎来了爆炸式发展。DeepMind 的科学家开发了能够准确预测蛋白质结构的人工智能工具 AlphaFold,利用 AI 技术实现了蛋白质合成后从无规则的多肽链自发形成的特定三维结构的精准预测。中国科学技术大学教授研发出数据智能驱动的"机器化学家",通过人工智能完成高通量合成、表征、测试的化学实验全流程,实现了高熵非贵金属析氧反应催化剂的高效创制。


通过人工智能技术来助力和加速科学研究,即 AI for Science 已成为一种新型的科学研究范式。而 AI 底层基础设施依赖于高性能计算 HPC 技术,用于提升 AI 模型训练和推理速度。


我们可以大胆预测,未来会有越来越多的基础科学研究基于 AI+高性能计算的技术来开展。但是对于从事 AI 的企业和开发者而言,HPC 并不是一个能够简易获得、上手即用的方便设施,这里存在着极大地运维和学习成本。


传统的 HPC 平台


传统的 HPC 平台基于物理机或云主机,在此之上安装 Slurm 或 PBS 调度器实现集群管理和资源监控。对于新入局科学研究行业的企业和开发者、以及 AI 科学家而言,使用传统高性能计算平台可能会存在诸多问题:


(1)建设成本高


需要采购高主频硬件、RDMA 网络和高性能存储;


需要专业的 IT 运维搭建控制面、数据面、登录节点;


(2)复杂的集群运维


调度组件维护和升级;


SSH 用户的文件权限管理;


适应业务动态调整集群资源分区;


存储服务磁盘容量监控、扩容;


用户作业配额管理;


(3)运行任务有一定学习门槛作业提交的交互和非交互模式;作业调度脚本语法;调度器常用命令、参数; (4)弹性能力差


集群满载时,新加入资源从采购到加入集群需要较长时间;


扩容的资源在集群负载不高时闲置,造成资源浪费;


除此之外,容器、微服务、声明式 API 构成的云原生基础设施,已成为构建 AI 应用的主流架构。主流人工智能平台和开源的 AI 框架/套件(如 Tensorflow、Pytorch、Paddlepaddle)支持部署至 Kubernetes 环境,提升 AI 模型开发、训练、推理效率。而传统的高性能计算平台目前仍缺乏对云原生底层设施灵活适配的方案和快速扩展的能力。


新一代 HPC 平台


京东云高性能计算 HPC 平台致力于降低企业基础设施建设和运维成本,使用户聚焦于高性能计算作业本身,低门槛快速使用平台能力。并且兼顾新型科学研究和 AI 开发场景,以普惠的方式对外提供高性能计算 HPC 能力。


兼容物理机、云主机等各类基础设施,支持对用户 IDC 存量物理节点进行利旧。在此之上构建统一资源管理的调度平台,并最终以产品化交互的方式,对外提供超算作业运行能力。



与传统的 HPC 平台相比,新一代的 HPC 平台具备种种优势: (1)降低运维和财务成本


  • 基于云的高性能集群,无需用户进行基础设施的搭建和运维;

  • 秒级弹性,一键快速加入集群,扩充计算资源;

  • 集群长时间空闲时快速释放云上资源,降低成本;



(2)细粒度权限管控


  • 底层资源使用者不可见不可登录,保障租户安全性;

  • 基于 RBAC 的权限管理,企业人员变动快速更新权限、停用账户;


(3)低门槛快速使用


  • 用户无需编写作业脚本,仅需控制台提交作业运行程序,可视化声明资源需求即可运行作业;

  • 适配云原生开发环境,支持通过容器镜像运行作业;

  • 平台集成镜像管理和文件管理能力,制品、算例文件、结果文件在平台内闭环管理;


(4)丰富的预置软件


平台预置数十款基础科学研究常用的高性能计算软件,用户可直接基于模板软件进行科学计算(部分商业化软件需用户额外购买授权),加速输出计算结果。



(5)成本观测和资源优化平台精准跟踪记录用户每一次高性能计算运行所消耗的资源,集群管理者可针对性的进行用户维度的配额限制。过程中的资源监控辅助研发、运维人员观测单任务运行过程实际的资源占用情况,与任务初始分配值对比,优化任务对资源的申领,避免任务申请资源闲置而新任务无法调度。

总结

京东云高性能计算 HPC 平台以其简易操作的平台体验和云上丰富的弹性资源,为企业和个人开发者在高性能计算任务场景带来了灵活性和便利性。在 AI+基础科学的新趋势下,助力企业降本增效。


京东云 HPC 平台目前处于灰度测试阶段,欢迎通过微信或企业微信扫描下方二维码加入 京东云 HPC 超算平台交流群 与我们一同交流。

发布于: 刚刚阅读数: 4
用户头像

拥抱技术,与开发者携手创造未来! 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者,提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】,欢迎大家来玩

评论

发布
暂无评论
与时俱进,京东云高性能计算平台_京东科技开发者_InfoQ写作社区