写点什么

阿里云 CIPU 下笔惊雷,方寸间书写中国算力故事

作者:脑极体
  • 2022 年 6 月 17 日
  • 本文字数:3918 字

    阅读完需:约 13 分钟

“当其下笔风雷快,笔所未到气已吞”,看到阿里云 CIPU 发布的消息,我脑海里第一时间冒出了苏轼的这句诗。

开启工业革命序幕,让蒸汽机、铁路和煤炭成为主要能源的是英国发明家瓦特;让灯泡和电力走入所有人生活的,是美国发明家爱迪生;现代计算机和互联网成为信息时代的基础设施,变革诞生在美国西海岸。今天,所有人都将算力看作第四次工业革命的基本能源,将与千行百业、社会经济产生深刻而绵长的化学反应,那么这一次,算力基础设施可以由中国来定义吗?


显然,阿里云想尝试一下,并且已经迈出了关键的一步——正式发布为新型云数据中心设计的专用处理器 CIPU,展现出取 CPU 而代之的气势。

CPU 制霸计算产业半个世纪之久,CIPU 要另起炉灶何其难也。作为读者或许会疑问三连:凭什么?为什么?怎么做?我们不想直接给答案,从大家感兴趣的问题出来进行逻辑推演,读者自然会思考并得出自己的答案。

提笔:凭什么是中国?

有一句流行歌词:没有人能在我的 BGM 里打败我。听起来十分自信,不过,这份自信很长一段时间是属于美国的。1971 年,英特尔生产的 4004 微处理器标志着 CPU 的诞生,随后与微软的 Windows 系统一起组成了著名的“Wintel”联盟,成为计算产业的现实标准,被广泛应用于 PC、高性能服务器以及云服务器中。而众所周知,获取算力的方式,无外乎本地硬件(数据中心)、云计算两种。也就是说,以 CPU 为中心的计算架构主宰了信息时代,支撑了云计算的崛起。

在这种局面下,中国厂商打算写一段全新的旋律,让别人主动走进自己的 BGM 里,凭什么?

首先,CPU 这张旧船票,可能登不上算力时代的船。英特尔 CEO 早在几年前就表示过“摩尔定律已死”,CPU 性能提升的速度早已放缓,而随着数字化的推进,数据规模、结构和来源越来越广,单一 CPU 为中心的计算架构,无法满足激增的算力需求,计算架构的创新是现实所需。


其次,围绕 CPU 形成的服务器、操作系统、中间件、数据库和基础软件等应用及相关服务,很长一段时间内都掌握在欧美主流云厂商手中,中国数字经济要长期可持续发展,对于算力基础设施自然希望有更多选择,这给中国厂商创造了新的机会。

当然,头部云厂商从业务、战略等维度也早就意识到了以 CPU 为中心的隐患,纷纷开始探索新的算力硬件解决方案。近年来多样性计算架构不断涌现,比如谷歌发布了 TPU,AWS 发布 Arm 架构的云服务器,英伟达尝试收购 ARM 以扩展数据中心业务。图灵奖得主大卫·帕特森与约翰·汉尼斯认为,接下来将是计算架构更新的黄金十年。如果不想在第四次工业革命中依然重复别人的故事,那么,中国就必须在计算架构上落下属于自己的一笔。

落笔:为什么是云计算?

如前所说,CPU 在本地和云都有应用,为什么架构创新会率先从云开始呢?答案其实也很简单,更新的图纸有更大自由发挥的空间。

第四次工业革命从云开始,对于中国千行百业的数字化来说,直接调用弹性、高并发、异构的云端算力是更理想的选择;中国云厂商在技术能力、市场规模、生态方面与全球巨头在相同起跑线,像阿里云已经成长为与 AWS、微软 Azure 等同象限的头部云厂商;更重要的是,方兴未艾的数字经济催生了新的算力需求和技术挑战,以 CPU 为中心的云计算架构越来越力不从心,中国云厂商有着更大的创新空间。

简单来说,云计算架构的创新方向主要有几个:

1.性能升级。云计算一定是性能先行,才能成为千行百业数字化的算力底座,尤其是第四次工业革命中智能技术的大量应用,深度学习对于算力资源的消耗是极大的,要求云处理器提供更强的算力,实现每比特性能最优。不仅需要硬件升级,创新传统计算架构,提升单位算力的效率;还需要软件升级,解决软件定义虚拟化中出现的资源损耗。

2.业务效益。各行各业使用云服务,不单单是降低服务器成本还希望通过云为管道引入新技术,对大量业务数据进行分析处理,释放数据价值,也就是说单位算力所能贡献的 GDP 要提高。数据密集型的计算越来越多,算力分布在边、端、云、网等多个维度,数据的迁移量和吞吐率也增多,解决超大规模分布式集群之间网络传输、管理的问题,才能满足客户对低时延、高带宽的需求。


3.绿色低碳。上云用数赋智成为趋势,计算无处不在,算力基础设施的能耗问题也引发社会关注,计算产业的可持续发展,需要低功耗、高性能的并发处理能力,减少虚拟化中的损耗,以达到单位比特的能效比最优,满足各行各业绿色低碳、节能减排的发展需求。

方兴未艾的云计算,相当于一张更新的图纸,等待着人来书写底层计算架构范式转换的新篇章,而阿里云用 CIPU 率先落下了遒劲的一笔。

入木:CIPU 怎么解开算力桎梏?

计算架构更新,是必然的未来,对于中国云厂商来说,怎样在自己擅长的技术赛道上建立起差异化优势,就成了当务之急。纵览全球领先的计算厂商,谷歌专门发布了应对 AI 任务的 TPU,亚马逊在云服务器、云端 AI 推理芯片上也有所突破,以 GPU 为主营业务的英伟达业尝试进入数据中心业务推出 DPU,老牌厂商英特尔也推出 IPU,国内也有云厂商推出了自己的计算硬件。

需要注意的是,云端算力实际上受非常多的条件影响,除了芯片的比拼,还有网络、算法优化、集群性能、部署环境、数据处理能力、框架等一系列要素,整体决定了云计算的优越性。阿里云为新型云数据中心设计的专用处理器 CIPU,正是考虑到云时代的算力所需,从三个层面进行管控并加速,来解开算力桎梏。


·网络加速。云和硬件的结合,必须依靠网络,管理阿里云全球上百万台服务器并非易事。试想一下,将不同地区数据中心的算力进行调配传输,如果网络不给力,必然会导致数据传输慢、计算慢,大量实时性要求高的任务如自动驾驶、远程医疗、在线教育等,体验就会受到影响。传统以 CPU 为中心的架构可没办法把手伸到网络层,而 CIPU 因为接入飞天云操作系统,可以直接通过飞天上的洛神云网络管控物理网络,进行硬件加速,构建大规模的分布式 RDMA 高性能网络,基础带宽从 100G 升级至 200G,网络时延从 22us 降低至 16us,因此 AI 任务、科学计算等上云之后,比自建物理机的集群吞吐量提升了 30%,延迟自然也就大大下降了。

·存储加速。大量云上客户希望充分释放数据价值,高吞吐、高并发的数据存算,如果存储系统跟不上,相当于一台跑车的油箱只有摩托车那么大,发动机再强劲也跑不快。传统 CPU 以计算为中心的设计,数据搬运中往往会产生“存储墙”和“功耗墙”,一定程度上影响了并行计算效率。同样的,CIPU 与飞天操作系统相结合,能够接入存算分离架构的块存储,并进行硬件加速,让云端存储可以做到比本地存储还快,并拥有极大规模的资源池。通过全硬件虚拟化和转发加速,时延最低可至 30us(PLX),IOPS 高达 300 万,存储时延存储带宽可达 200 Gbps,全面超越市面上的云产品。

·计算加速。算得快意味着什么?1750 亿参数的 AI 大模型 GPT-3 训练成本约为 1200 万美元,如果算得够快、损耗够小,训练成本就能大大下降。而众所周知,云服务将物理机虚拟池化,过程中或多或少都会产生一定的损耗,CIPU 的出现就解决了算力虚拟化的损耗问题。通过与神龙计算平台相结合,将虚拟化转移到专用硬件中进行加速,损耗几乎为零,让云服务器的性能表现超越了传统物理机,还提供硬件级安全的加固隔离,兼具云端弹性扩容的优点。对于云上客户来说,无疑是更低成本、灵活性的选择。

在多种计算架构方案中,“飞天操作系统+CIPU”为中心的新一代计算体系架构,从最底层的核心硬件到最上层的云原生软件进行革新,替代 CPU 成为云计算的管控和加速中心,无疑是云端算力生产和服务单位价值更高、技术变革更大、基础底座更强韧的一次探索。

风雷:CIPU 画出的跑道通向何方?

中国工程院院士、清华大学高性能计算研究所所长郑纬民曾说,过去这些年,我国在云计算领域主要在软件层面有创新,发展了一些开源生态,但还是在传统 IT 的格局下追赶。

显然,CIPU 的出现,下笔如有风雷,撕开由西方主导的计算产业天空,露出未来的一抹天光。乍一看石破天惊,实则是一场酝酿已久的春雨。

前面提到的飞天操作系统、洛神网络、盘古存储,都是阿里云多年不断突破的云计算底层技术,经过深入垂直整合,才最终演进出以 CIPU 为中心的全新架构形态,解决传统计算架构无法解决的问题。以虚拟化零损耗为例,阿里云相关研发团队早在 2015 年就开始技术攻关,2017 年神龙云服务器的推出,就已经攻克了这一技术难题。目前,阿里云已经建立了芯片、服务器、操作系统、数据库等自研技术底座,在 Gartner 发布的年度报告里跻身 IaaS 整体基础设施能力的全球最高分。同时,阿里云也是国内最早实践绿色数据中心的厂商之一。

那么,这场终于降落在华夏大地上的春雨,会带来怎样的变化呢?


首先感受到雨露润泽的必然是各行各业的数字化,CIPU+飞天体系下,云端算力的单位成本更低、性能更优、能耗更低,产业客户会直接受益,用上更加普惠、高效、绿色的算力。

其次,大地滋润后会生长出更多创新,让中国在数字经济占据领先身位。算力正在许多行业中释放潜力,比如云电脑无影,就将高算力工作从本地转移到云端,无需高性能终端,依然可以在云端流畅地打造 8K 画质体验,对于创作者来说是极大的生产力解放。

更进一步,各行各业的创新和计算软硬件迭代,共同组成蓬勃的新计算生态。就如阿里云智能总裁张建锋在 2022 年阿里云峰会上所说的那样,“现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地”。

回到底层,回到源头,去做最基础的计算架构创新,阿里云用行动“Back to Basic”,践行“B2B”策略。这也是为什么云计算的范式转化应该发生在中国,发生在此刻。

英国科普作家马特·里德利在《创新的起源:一部科学技术进步史》一书中列举大量事实表明,正如 6 个世纪以前,欧洲从日益僵化的中国手中夺过创新接力棒一样,中国或许即将再次夺回接力棒。

在 CIPU 如惊雷般地书写中,中国云计算的新乐章已经写下了开头。何其有幸,我们正见证未来。

用户头像

脑极体

关注

还未添加个人签名 2020.06.12 加入

还未添加个人简介

评论

发布
暂无评论
阿里云CIPU下笔惊雷,方寸间书写中国算力故事_脑极体_InfoQ写作社区