全球掀起 AI 热,天翼云智算能力已就绪!
随着超大规模人工智能模型和海量数据的爆发,人工智能对算力的需求也随之不断走高。根据 IDC 发布的《2022-2023 中国人工智能计算力发展评估报告》显示,中国人工智能计算力保持快速增长,2022 年智能算力规模达到 268 百亿亿次/秒(EFLOPS),超过通用算力规模。
作为云服务国家队,天翼云积极推进算力普惠发展,已形成“2+4+31+X”资源布局,构建了“集中化+区域化+属地化+边缘化”的云网基础设施,为人工智能夯实“算力底座”,助力 AI 快速完成数据训练,提高计算与模拟的精准性。
为了适应市场智能算力的快速增长,天翼云聚焦人工智能场景创新,推出天翼云智算平台,以普惠智能算力为基础,支持大模型训练、智能推荐、无人驾驶、生命科学、NLP 等业务场景。
天翼云智算平台依托天翼云分布式架构的云底座和海量的计算、存储、网络资源,具有高性能、高弹性、高速互联、高性价比等特性,能够满足企业不断增长的高性能算力使用需求。
日前,天翼云智算平台通过中国信息通信研究院《可信算力服务平台技术能力要求第 3 部分:智算平台》评估,成为业内首批通过该项评估的云服务商。
具体来看,天翼云智算平台主要有以下四个方面的差异化优势:
01 高性能底座支撑能力
天翼云智算平台基于天翼云TeleCloudOS4.0 云网底座,覆盖全场景算力需求;打造国产化能力体系,适配国产主流 GPU 芯片以及各种国产服务器,适配自研云服务器操作系统 CTyunOS;集成弹性计算、分布式存储、云网络三大基础核心技术,软硬协同硬件加速,提供全量 IaaS 产品服务。
02 GPU 虚拟化能力
天翼云智算平台支持主流 Mediated Passthrough(vGPU)、直通透传等虚拟化技术;支持软硬件层面的容器虚拟化技术,软件方面支持 API 劫持及其他算力和显存灵活分配能力,硬件方面支持 MIG、vNPU 等特性,从物理资源层面分配单卡资源。
03 高效的调度能力
资源调度方面,天翼云智算平台实现对 GPU、NPU、CPU 等异构算力资源的混合调度,训练、推理任务统一调度,实现了异构算力和异构任务的统一调度;任务调度方面,提供基于任务优先级、任务 SLA、资源独占式调度、共享式调度、抢占式调度,灵活支持各类差异化的用户需求。
04 分布式训练能力
天翼云智算平台提供分布式训练一站式解决方案,融合 GPU 拓扑感知、亲和调度、高 IO 并行文件系统等底层技术,支持多种模型训练方式,兼容主流 AI 框架,扩展定制业界主流分布式训练方案,提升训练数据量,缩短模型交付周期;提供定制化算法框架,采用代码生成等方式,内置提供丰富的算子,简化数据集导入、特征工程处理、预训练模型依赖等步骤,提升 AI 训练开发效率;针对大模型分布式环境下的训练,显存优化方面使用 ZeRo 等技术,打破显存与内存的隔阂,降低训练的显存开销。
随着国内新一波人工智能浪潮袭来以及 AI 规模化落地应用,具备“更高、更快、更强”能力的智能计算基础设施平台被人工智能行业所青睐。天翼云智算平台适用于城市治理、AI 质检、搜索推荐、自动驾驶、金融、科学研究等领域,可提供人工智能应用所需算力服务、数据服务和算法服务,通过算力的生产、聚合、调度和释放,促进 AI 产业聚集发展。
天翼云智算平台不仅提供算力,还对云能力做“组件化”封装进行输出,能迅速支撑业务上线,提升技术创新能力,加速科技研发进程。此外,智算平台的推广与应用将产生联动效应,带动通信服务网络、大数据、人工智能等技术快速迭代,有助于我国科技创新提速。
在人工智能按下“快进键”的背景下,天翼云不断完善智算基础设施,打造创新性的产品,深度赋能人工智能领域企业跑出“加速度”,并通过多点发力布局走在智算领域的前列,AI 应用也将在科技创新的助力下进一步加速“走深向实”,全面推动 AI 产业高质量发展。
版权声明: 本文为 InfoQ 作者【天翼云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/106d2628b70a26cd5564dfcd5】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论