写点什么

从去 IOE 到 CIPU,中国云计算要走出自己的路径

作者:TO B 新势力
  • 2022 年 7 月 20 日
  • 本文字数:5662 字

    阅读完需:约 19 分钟

从去IOE到CIPU,中国云计算要走出自己的路径

采访、撰文|宇婷 

2022 年中,首都国际机场出机口,人群熙熙攘攘,疫情逐渐淡下,行人往返顺畅。出机口右手边一个硕大的广告牌上,白底橘色的字写着:为了无法计算的价值。这是阿里云 7 年前的旧 slogan,但配上了“机械工业九院”的最新智能制造案例。

时空交错,回到过去。

重提计算价值,是阿里云对于自己当下的自我“梳理”,但似乎也是对云计算行业的提醒。

十年前中国科学院院士、阿里云创始人王坚博士对于云计算成为一种公共资源的布道。再早 1961 年,在麻省理工学院 100 周年纪念典礼上,麦卡锡第一次提出了“Utility Computing”(效用计算)的理想。

云计算发展到现在,形成一些行业共识:第一,云计算的技术水平,影响着云厂商的经营和盈利能力;其次,云计算技术路线的选择,对技术水平的高低有决定性影响;第三,技术路线还在快速迭代中,下一代云计算技术往何处走,AWS 等领头羊厂商们尚无定论。

一个技术代际比想象的要长得多。事实是,只有个位数的厂商有能力和资源推动这场技术变革。但推动变革需要从底层技术出发,这需要跳脱出眼前的商业成单,做长远技术布局。只有云计算的规模经济效应发挥到极致,厂商们也一定会受到商业的“褒奖”。

计算终将变成一种公共资源,和水、电、煤气一样,被每一个人使用。有投入能力,有场景,有数据的头部厂商,真正做了自己应做之事,计算普惠到中小企业和个人。

阿里云其实可以对自己更柔和些,但重新提及“无法计算的价值”,显然他们选择了更犀利的道路。阿里云上半年规模超过 1000 亿实现盈利,市场份额和毛利很重要,但是眼光应该往前看,看到技术趋势实践它,做出来。这是行业领先者应做之事。

企业和人一样,不可有傲气,但不可无傲骨。

在重提计算价值这件事上,能重提自己的初心,提出“Back to Basic”,是为“无傲气”。

云计算不是新瓶装旧酒,最终会变成电,但要自己跋涉出一条技术长征路,是为“有傲骨”。

图片:首都机场


01 为什么中国云计算企业要“自研”


2022 年中,阿里云发布了自己的 CIPU。十年前的去 IOE 和阿里云当下发布 CIPU 有很强的共同点:“因”是业务需求而产生,“果”是实现技术突破,带动下一个技术阶段。

在通往云计算成为一种通用计算的终极目标上,云计算作为 IT 行业的新兴技术,形态还在不断演进中。客观地说,上一个十年,阿里云做对了“去 IOE”与飞天自主研发这件事,决定了今天阿里云与中国其他云计算厂商的不同——自研技术。

历时三年,去 IOE 才成功。自研是一条“长征路”,难走,因为创新没有参照。但必须走,因为能解决本质问题。

去 IOE 是阿里云自研的开始。2009 年春节上班第一天,阿里云团队在北京上地的一间普通的办公室里写下的飞天第一行代码,这间办公室简陋的都没有空调。直到 2013 年 5 月 17 日,支付宝最后一台小型机下线,这也是阿里巴巴全集团最后一台小型机下线。后来,飞天首次突破 5K 集群是阿里自研技术的里程碑。

自研开始于硬件和软件双方面的“无路可走”。“去 IOE”是用阿里要用自研系统,替代 IBM、 Oracle 和 EMC。当时阿里的 Oracle RAC 集群节点数超过 20 个是亚洲第一,Oracle 数据库后期抗不住双十一洪峰。没有选择 OpenStack,自研飞天,是因为世界上所有的开源软件公司没有应对过阿里云要应对的数据量和双十一洪峰。在飞天 5K 的时间节点上,没有软件能实现超过 5000 台机器的集群处理。

无路的另一方面是解决成本问题。“如果阿里在 2013 年双 11 还用的是 Oracle,则需要根据 350 亿成交总额,补交 Oracle 数据库的服务费,这是一份惊人的成绩单。”一篇报道中还提到相应的高昂费用。

做成“去 IOE”和飞天,阿里云是有资格被公认为中国第一个相信云计算不是新瓶装旧酒的公司。

阿里云确实投入了巨大的坚信和付出。

王坚在斯坦福大学演讲飞天的时候,被认为不靠谱,王坚甚至自己也觉得大家有这种想法是对的。甚至后续加盟阿里云的人,一些人都对飞天持有怀疑。这种被质疑,是因为比如在飞天 5K 的攻坚中,从设计到实现每一步的性能都可能出现不确定性。飞天最早的主创团队告诉过 TO B 新势力,这就是一场实验科学。因为系统的规模,微小的瓶颈都会被放大影响力,蔓延至整体。《阿里云的这群疯子》一文中写到飞天系统尚未稳定时候,“在不同的会议室里,在不同的场合,在不同的时间。面对质疑,后羿看到王坚沉默,看到振飞沉默,他唯独没有看到任何人为理想停下哪怕半步。”

坚定的背后是对技术价值的理解 —— 去 IOE 是并不是简单改变软件和硬件本身,而是用新的技术架构替代传统的 IT 技术和架构,这是一个自研架构体系的逐渐迭代时。

“做深基础”背后逻辑并不是简单替换,是基于云的特点来构建整套基础体系。就像当年阿里巴巴“去 IOE”并不是做一个新的小型机替代了旧的小型机,而是用阿里云这辆汽车超过了旧时代的马车。——阿里云总裁张建锋在接受媒体采访时也提到。

去 IOE 和飞天奠定了阿里云的技术基座。云把去 IOE 之后的技术能力输出,让更多企业享受到这一技术。对于云客户来说,不再选择 IOE,而是选择云,这意味在根本上选择了相信云计算。

“去 IOE”与飞天不是简单的对硬件和软件的替换,而是新的技术架构体系迭代。

王坚曾在采访中说道。当年去 IOE 成功,要素有三:

一是企业的战略决心是否足够强大,这一点没有巧可以取。

二是能够坚持到底,愿意承担技术上、组织上的各种风险。

三也是最重要的,这种看起来不可能的事需要有使命感的人和团队去完成。

“因为做云计算,多多少少需要点浪漫主义的精神,否则做不好。”王坚曾说。

图片来自十年磨一剑,作者刘振飞


02 技术布局非一日之功,云大厂比拼的终是技术

回看整个过程,阿里云布局技术的最大的启发是要有足够耐心,渐进延续自研技术路径。从“去 IOE”以及飞天 5K 集群,到 CIPU 已经持续 12 年。12 年的时间,逐渐建立了芯片、服务器、操作系统、数据库、AI 平台,围绕云计算的整个软硬技术体系。

一些重要的技术布局包括:2016 年的神龙服务器实际上可以看作是今天 CIPU 的雏形。神龙架构解决服务器虚拟化性能损耗。2021 云栖大会,阿里巴巴旗下半导体公司平头哥发布自研云芯片倚天 710。以及阿里云对于一云多芯战略的布局。与神龙和倚天 710 在打好配合的基础上,进一步形成一个明确的客户发展路径和生态。“一云多芯”战略适配 X86、ARM、Risc-V 等多种架构,兼容飞腾、鲲鹏、AMD、Ampere 等多种 CPU。

除此之外的一些技术还包括:盘古存储用分布式存储提升容错和柔性;神龙网络在 2021 年权威机构 Gartner 云网络评分中排名全球第一,领先 AWS、Azure 等厂商。龙蜥服务器操作系统支持 X86、ARM 等主流芯片架构,兼容 CentOS 生态;以及研发绿色数据中心;PolarDB、AnalyticDB、Lindorm 为核心的不同场景的云数据库产品矩阵。

看未来,云计算终会突破单一企业成为公共资源,在线的数据是一种资源——这是美好的愿景。回到当下,以阿里云为代表的云计算大厂,到底要如何直面竞争?

“大家都在同一条起跑线上,大家都有同一个目标,怎么样把成本降到最低,把性能提到最高。所以这个投入不是说有没有什么选择,是没有选择的。”张建锋接受在最近接受专访时提到。

他的另一个表达更为直接:“我们(阿里云)要做的东西,本来就是更底层一点,但为了客户能用起来,我们已经自己用业务翻译了一层,搞各种数字化的项目,结果这个越搞越厚了,离云越来越远。”

“商业模式越来越贴近用户的本质需求,但是对于下面的技术要求就会越来越高。你要管理好,才有利润。”这句话是一个对整个行业的提醒。

走向深度回归本质。对于云计算来说,答案无疑是底层技术。一方面,仅靠软件调度数据中心已经不足够。云计算面临挑战:另一方面,面临的新型数据计算难题,以及庞大的 IT 资源管理成本,在数据密集型新的计算场景下,“低时延、高带宽”挑战有了新的“内涵”。

云计算行业风云迭起,争夺不休,但核心未变:云计算作为 IT 行业的新兴技术,形态还在不断演进中,能抢先推出、推广新技术的云厂商,就有定义行业标准的机会。当数据量大到一定程度,必须解决成本线性增长问题。云计算底层就是要拼技术能力,来解决规模达到一定程度时候的成本和稳定性。

十年过去,云计算已经经历了分布式和虚拟化技术替代了大型机,满足了当时企业所需的算力规模;以及资源池化技术,通过计算存储分离架构,将计算、存储、网络资源分别池化,突破了规模和稳定性的瓶颈,提供了超大规模的云计算服务。云计算最重要的特点是软件定义,但软件定义同时会带来的问题,系统的性能在传输中会有损失。从分布式到以 CPU 为中心的云时代,要满足下一阶段的技术要求,要在庞大的基础设施上,平衡灵活性和性能。这两个阶段的共性都是通过软件进行定义,基于传统的以 CPU 为中心的体系架构去做优化。

云计算是规模经济,真正有能力做甚基础,等到临界点之后的爆发只有少数企业。

阿里云现在承担着超大规模的复杂管理问题。全球 27 个国家和地区、84 个可用区。更具体一点看,随着数据密集型计算越来越多,传统以 CPU 为中心的计算体系架构无法适应以 CPU 为中心的架构导致了计算和网络传输的时延大;大数据应用增多,导致数据中心内部数据迁移量增多,以 CPU 为中心的架构无法提供高带宽;管理的基础设施规模越来越大,

与英特尔、英伟达的路线不同(产业链上的供应商)的是,阿里云这次研发 CIPU(Cloud infrastructure Processing Units)是通过云的规模、业务,客户云的需求,根据飞天操作系统从顶层定义,又根据垂直业务定义芯片。

CIPU 的研发是要协助或者说承载飞天云操作系统需要去纳管的整体编排、调度的上百万台服务。“飞天+CIPU”,形成软硬件结合。CIPU 向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器,让算力虚拟化损耗降到 0,并通过规模化应用 RDMA 网络技术,让访问云端比访问本地硬盘更快。

阿里云的解题思路在 2021 年已有雏形,张建锋曾指出阿里云发展的四个核心战略:做深基础、做厚中台、做强生态、做好服务。这其中,“做深基础”投入最多、期望最高、挑战最大,同时也是阿里云的立足之本。要提供最好的计算产品和服务,就必须坚持自研,把“做深基础”做到极致。

面对国际云和中国市场,阿里云发布 CIPU,当下 CIPU 绝对不是终极状态,就像飞天刚刚发布也远未到今天的规模。但是复盘阿里云从去 IOE 到 CIPU 的自研之路,可以看出:

无路可走之时,找回初心,就自己走出一条路。坚信感能找到这条路。


03 长征终点:云计算终会突破单一企业成为公共资源

10 年前,阿里云用 5 年突破 5k 技术,这是阿里云的第一次技术长征,这次突破让中国云计算与 AWS 等国际厂商站在同一个起跑线上。

当前,云计算即将进入下一个技术周期,阿里云推出 CIPU,并着力围绕 CIPU 打造下一代云计算体系技术,这是阿里云的第二次长征。

追着走,还是自己突围?这场长征需要在云计算竞争的白热化以及行至水穷处,找到平衡商业和技术的柳暗花明。

阿里云也要再次面对质疑,一家互联网公司是否会受到硬件基因的制约?CIPU 会否是昙花一现的概念?CIPU 是否真会颠覆了云计算的架构?

于外,今日长征的环境已经变化。于内,是否相信这件事情可以做成,是否相信自己——这种信念感,决定了阿里云 CIPU 之路的坚定。

“我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代”,张建锋在今年的云峰会上说。

公共云真正能够体现出云计算在效率上的核心竞争力。

“被遗忘而不可替代,也是值得期待的事情,就像空气一样,是一个非常好的状态。”2019 年行颠上任后接受媒体专访,曾经说过,我很喜欢这句话。

古希腊史诗《奥德赛》讲述了伊大卡岛主人公成年英雄奥德修的 10 年海上冒险,自强不息,终回家乡的故事。在大自然的面前,百折不挠“明知不可为而为之”的顽强与较量,“奥德赛”式的远行被赋予了自我认知和精神式的回归。

我回想曾经看到的一篇文章,有一个很有趣的细节,阿里云刚成立的前两年,员工出差用餐时,开发票的服务员总是“好心”地将“阿里云计算有限公司”,写成”阿里云计算机有限公司”。多加一个“机”字。

软件、硬件,推动技术发展,潮流总是重复的。

今天和之前的飞天又是不一样的。因为当年大家会有质疑,但是今天对于云计算已经有足够的共识。CIPU 出生就作为战略级别去推动和披露。

几天前,在使用一款 SaaS 软件的时候,它依然让我在两家云计算厂商中,自己选择把数据存放在谁之上。这是一种尊重,但另外也说明了对于云厂商的信任未有定论。

10 年之间,云计算仍然尚未成为真正成为和电一样的通用的公共资源,技术变迁必然需要周期。但另一方面,中国企业级用户关心数字化项目,也使得云厂商越来越厚。一个技术时代变迁必然需要周期,更多的“云计算”似乎还没有完全突破单一企业的商业价值维度,变成社会通用资源。

当下的中国需要有真正的厂商,去清醒地再次站出来,提示云计算的本质是计算。去进行技术布局,走出一条完全与 AWS、Azure 不同的道路。

今年早些采访无影的应用。一个细节是,机器人生产制造创业公司的创始人谢智衡,因为通过无影电脑的方案,能够实现远程对手术级别机器人的调试和控制,并且是在一个精密制造业的场景之中。谢智衡在接受采访时,犹豫要不要去分享这个。但最终他认为这件事会对整个行业有价值,帮助很多企业在不能复工复产的情况下生存下去,技术出身的他觉得接受采访是有意义的。

无影持续改变计算机与应用架构,云端和终端连接起来。这就是云计算的本质:云要用普惠技术让企业和个人获益。更远的未来,云的终极是让所有人不顾及成本,都可以随时使用。甚至未来的工程师脑海中是没有服务器的概念的。

“多年以后,新一代的新新人类,他们会更幸运,他们接触的一切计算环境都是云原生的。他们天生就会认为,云计算资源是无处不在、取之不尽、用之不竭的,他们不会关心云资源在哪里、有多少。就像今天我们使用自来水一样,没有人会费心思考虑水从哪里来。”CIPU 的负责人,阿里云蒋江伟写过一篇文章提到。

下一个十年刚刚开始。


同时推荐以下文章:

《十年磨一剑:从 2009 启动“去 IOE”工程到 2019 年 OceanBase 拿下 TPC-C 世界第一》

《阿里云的“降维战争”》by 鹿鸣财经

《阿里云的那群疯子》、《阿里云造神龙》

《凌晨 4 点,一场顶尖科技巨头的硬战》

《独家对话阿里云张建锋:云计算接近进入下一个时代|钛媒体深度》

用户头像

还未添加个人签名 2022.06.30 加入

还未添加个人简介

评论

发布
暂无评论
从去IOE到CIPU,中国云计算要走出自己的路径_TO B 新势力_InfoQ写作社区