重磅!天翼云发布一站式智算服务平台“慧聚”
11 月 10 日,以“数字科技 焕新启航”为主题的 2023 数字科技生态大会在广州市举办。会上,天翼云重磅发布一站式智算服务平台“慧聚”。天翼云科技有限公司董事长、总经理胡志强对天翼云智算服务体系进行了全面解读。
2023 年是大模型高速发展的一年,大模型不断扩大的参数规模和快速迭代的技术路线跨越式地提升了模型的能力,但是同时也为大模型的训练和应用带来了很多挑战。比如算力利用率的瓶颈日益凸显、算力成本压力进一步增大、模型的构建难度不断提升、模型的行业落地更加复杂。
胡志强表示,为顺应大模型时代对于云服务商的新要求,天翼云全面升级,构建了全栈大模型智算服务,包括打造智算数据中心 AIDC、升级云智超一体化基础设施平台“云骁”、推出一站式智算服务平台“慧聚”、构建国云大模型生态,形成云智一体的智算服务体系。
整个体系的基石是智算基础设施。针对 AI 高强度运算带来的散热问题,天翼云推出了液冷 DC 舱,融合定制化液冷智算服务器,实现低至 1.12 的 PUE。与此同时,天翼云也将“云骁”升级成为云智超一体化基础设施服务平台,构建了高性能 RoCE 网络、并行文件存储等服务;重点提升训练加速、网络加速等核心能力,同时升级了运维体系,实现对基础设施的全面故障预测和感知。在国产化方面,“云骁”平台率先在公有云加载天翼云 RoCE 网络+国产 GPU 方案并实现商用。
在平台层,天翼云发布大模型的一站式智算服务平台“慧聚”。“慧聚”平台将大模型开发训练过程中的关键流程、复杂技术和宝贵实践经验进行总结和抽取,构建出一站式全链路的大模型生产应用的流水线,大幅降低大模型训练、微调、部署、推理的门槛,让客户能够更专注于模型升级和应用落地。
在技术上,“慧聚”平台成功突破了算子加速、模型并行、断点续训等技术难点,将高性能计算能力、分布式算力调度能力、训练和推理多环节加速技术、高性能数据存储技术进行封装,稳定性、训练推理速度等核心指标大幅提升。
在功能上,“慧聚”平台基于数据平台、模型开发平台、模型服务平台和应用服务平台四大平台,提供数据准备、模型开发、任务管理、模型优化等多个产品功能模块,每个功能模块又包含多级组件。功能与组件之间可以灵活组装,帮助用户打造针对不同场景的专属工具集。
基于全新的基础设施服务平台“云骁”和智算服务平台“慧聚”,天翼云已经为大模型开发者、大模型提供者、应用厂商、政府与科研机构、行业协会等合作伙伴提供多种生态模式支持。
依托国云智算底座,发挥国云安全优势,天翼云将与产业各方合作伙伴紧密协作,广泛汇聚国内外 AI 芯片伙伴、各类通用大模型及行业大模型伙伴及广大开发者,共建繁荣的大模型创新生态,携手打造先进的智算生产力,全面赋能经济社会的数字化和智能化。
评论