OpenAI 和谷歌,AI 对线中的飞驰人生
到底什么时候,才能有一家公司赶超 OpenAI?这句问题,想必是过去一年多来,萦绕在不少读者心中的困惑。
如果全世界只有一家公司能赶超 OpenAI,谷歌应该是最有希望的选手。
同为北美 AI 巨头的谷歌,与 OpenAI 有着相同的 AGI 目标、世界级的技术人才、全球资金资源,就连 OpenAI 大模型的核心 Transformer 架构,都是谷歌原创发明的。
然而 2023 年至今,AI 领域风云迭起,OpenAI 永远快谷歌一步。谷歌每次拿出一个“复仇大杀器”,想一雪前耻的时候,总会被 OpenAI 抢走风头。
比如最新推出的核弹级多模态大模型 Gemini 1.5,只在科技话题榜上“炸裂”了几个小时,就因为紧随其后推出的 Sora 过于炸裂、更吸引眼球,而变得无人在意。
毫无疑问,AI 领域正在进行着一场世界上最精彩的“速度与激情”,领先的 OpenAI 赢得漂亮,紧随其后的谷歌也输得体面。我发现它们的境遇,被龙年春节档的热门电影,给精准拿捏了。
如果说 OpenAI 是惊艳四座、激动人心的《热辣滚烫》,那谷歌就像是《飞驰人生 2》中艰难追梦的中年赛车手,鼓起勇气全速前进,结果不是赢,而是来了个大翻车。
谁能摘下赛道终点 AGI 的圣杯,结果还未可知,这一年多来,仅仅是欣赏这一长程赛事的初始赛段,都已经令人极为振奋了。
谷歌与 OpenAI 的 AI 对线,可谓是屡战屡败、屡败屡战。我们就从这场精彩的“双雄竞速”,来整体看一看北美 AI 巨头的产业对垒形势。
谷歌三连败,北美 AI 巨头的激情对线
目前,在争夺 AGI 通用人工智能圣杯的赛场上,分别有三支北美 AI 巨头:OpenAI、谷歌、Meta。
其中,Meta 走的是开源路线,其大模型系列 LLaMA 是目前全球最活跃的 AI 开源社区。而 OpenAI 和谷歌则在同一条赛道上,主要打造“闭源”大模型。
尽管 OpenAI 被嘲讽“不再 Open”,谷歌工作人员也大胆谏言“我们和 OpenAI 都没有护城河”。但换个角度,闭源的业务策略要说服用户付费,必须提供高质量模型、具备难以替代的能力优势,这也会驱动模型厂商持续创新,保持竞争优势,是 AI 产业中一股不可缺少的商业力量。
所以,北美 AI 三巨头的对垒格局,就是 Meta 卷生态,OpenAI 与谷歌卷模型。
那么,把目光聚焦到模型赛道上,比赛情况如何呢?
2023 一整年,和 OpenAI 同一赛道的谷歌,深深品尝到了 peer pressure 同辈压力的滋味。
这场竞速,可以分为三个赛段:
Round1.ChatGPT VS Bard.
结果不用多说,这是一场谷歌被 OpenAI“摘了桃子”而开启的竞赛,从此就只能一路跟在 OpenAI 的尾气后面。
2022 年 11 月,OpenAI 发布 ChatGPT 一鸣惊人,开启了全球大语言模型的热潮。
其中,ChatGPT 的基础技术 Transformer 是谷歌推出的,大语言模型的涌现现象是谷歌研究员 Jason Wei 发现的(后来跳槽到了 OpenAI)。用谷歌的技术,抢谷歌的人,冲击谷歌的 AI 领导地位,OpenAI 可谓是一通“骑脸输出”。
谷歌的应对,是“一怒之下怒了一下”。
2023 年 3 月,谷歌紧急发布了 Bard。但这个模型本身的性能就比较弱,上线时功能有限,只支持英文,只针对少数用户,跟 ChatGPT 完全不能打。
Round2.GPT-4 VS PaLM2.
有人说,谷歌采用的是“田忌赛马”策略,第一局故意放出了比较弱的机器学习模型 Bard。这话有一定道理,但架不住 OpenAI 的每匹马都是好马。
OpenAI 很快推出了升级版的 GPT-4,并开放了 GPT-4 的 API,把谷歌甩得更远了。
5 月的谷歌 I/O 2023 大会,派出来对打 GPT- 4 的 PaLM 2,也是一个“过渡产品”。谷歌研究副总裁 Zoubin Ghahramani 对外表示,PaLM 2 是对早期模型的改进,仅仅缩小了谷歌与 OpenAI 在 AI 方面的差距,但并没有整体超越 GPT-4。
这一轮,谷歌仍然落后。谷歌显然也清楚这一点,在这场大会上同时宣布,正在训练 PaLM 的继任者,名为 Gemini,押注了上亿身家,准备在年底上演“王子复仇记”。
Round3.Gemini 家族 VS Sora+GPT-5。
2023 年底的 12 月,谷歌 Gemini“虽迟但到”,这个谷歌目前最强大、最通用的 AI 模型,被媒体称为“复仇杀器”。这期间,OpenAI 上演了一出“甄嬛回宫”的宫斗大戏,没有特别炸裂的产品。这一次,谷歌能夺回属于自己的一切吗?
很遗憾,谷歌并没能上演 AI 领域的“龙王归来”。
三个尺寸的 Gemini:Nano、Pro 和 Ultra,其中 Gemini Pro 在常识推理任务中落后于 OpenAI 的 GPT 模型,Gemini Ultra 对于 GPT-4 仅有几个百分点的优势,而 GPT-4 是 OpenAI 一年前的产品。而且,Gemini 还被爆出,宣称打败 GPT-4 的多模态视频,有后期制作和剪辑的成分,用中国模型产生的中文语料进行训练,自称是文心一言。
谷歌一鼓作气,一脚油门,Gemini Ultra 发布还没几天,就推出了多模态大模型 Gemini 1.5,能够稳定处理高达 100 万 token,创下了最长上下文窗口的纪录。
这是一个激动人心的成果,如果没有 Sora 的话。
OpenAI 几个小时之后,就推出了文字视频生成模型 Sora,用前所未有的视频生成性能,以及世界模型的产品化,再一次惊艳了世人,抢走了本应属于 Gemini 1.5 的话题度,也强化了自己的 AI 领导地位。目前人们倾向于认为,OpenAI 还是领先谷歌一筹。
此前大家都猜测是 GPT-5 已经训练得差不多了,面对谷歌目前最强的模型 Gemini 1.5,已经有人隔空喊话奥特曼,问他还要把宝贝捂到什么时候,还不快点放出 GPT-5。
至此,为期约一年的北美 AI“田忌赛马”,以谷歌的三连败,暂时告一段落。
AGI 的殊途,难以飞驰的谷歌
AGI 是一场长长的赛事。拉长时间轴,谷歌与 OpenAI 的一年对垒与一时成败,或许未来看都不算什么。有资格走上顶级赛道,本身就是谷歌 AI 实力的一种证明。
比起输赢结果,更值得讨论的是,谷歌变成“卷王”卷了一整年,为什么会一直被 OpenAI 甩在身后,怎么折腾都跟不上?
田忌赛马,输一次是战术失误,次次都输,可能就能关注一下,是不是从马种、马圈、草料等源头,就已经存在问题了。
回到源头,谷歌和 OpenAI 可谓是同归、殊途。
同归,是双方都以实现通用人工智能,摘下 AGI 圣杯作为目标;
殊途,是双方选择的技术路线不同。OpenAI 将更为通用的语言能力,作为实现 AGI 的基础,因此采用了对 NLP 领域至关重要的 Transformer 架构,打造了一系列 GPT 模型,才有了 ChatGPT 的惊艳亮相。
而谷歌则不然。多年来,谷歌的 AI 研发机构 DeepMind,将强化学习、深度学习用于解决各种人工智能问题,技术积累非常广泛。比如石破天惊的 AlphaGo、彻底改变生物学的 AlphaFold,以及 Transformer 等 NLP 技术。
这就相当于,两个车手在为比赛准备赛车,OpenAI 为 AGI 选了一个场地,比如“方程式赛车”,然后以语言为核心进行模型的开发制造,对赛车(模型)的结构、长宽、发动机、汽缸等进行优化改造(工程化)。而谷歌的 DeepMind 则不确定哪种车能终结 AGI 比赛,手里的技术工具又很多,于是方程式赛车、跑车、摩托车都造一下试试。
两种路线原本并没有什么优劣之分。但随着大语言模型的“智能涌现”,证明了 OpenAI 选择的技术路线更有希望实现 AGI,谷歌 DeepMind 的技术路线就暴露出了明显的短板:
1.方向分散,成本高昂。在各个技术方向上投入的泛创新,消耗了大量资金,DeepMind 与谷歌母公司 AlphaBeta 在商业化上的矛盾日趋加深。在 OpenAI 大幅融资加速的时候,谷歌为了加大对 AI 的投资,通过裁员来节省成本。
2.选型太多,难以聚焦。谷歌开创了许多技术,但每个技术的重视程度、持续深入强度也被分散了,四处打井不出水。最典型的就是 Transformer 架构,由谷歌发明,但被 OpenAI 发扬光大。ChatGPT 的涌现现象,也是研究员在谷歌发现之后,但得不到重视,出走 OpenAI 后向前推进。
3.落地迟缓,成果太慢。谷歌内部对 AI 的保守也是出名的,导致其即使掌握了先进的技术,成果转化的效率也很低下。有前谷歌员工曾吐槽,谷歌的项目一般都是先吹一阵牛,然后什么也不发布,一年后再把这个项目给砍了。这一点在 Sora 的爆火上就能看到,训练 Sora 使用的扩散模型(diffusion model)、文生图模型,谷歌都有相应的技术储备和成果,但就是没能先搞出 Sora 这样的产品。
可以看到,由于一开始就押注错了赛道,等到大语言模型成为 AGI 最有潜力的实现路径,OpenAI 领先的大势已成。这时的谷歌再要回到 OpenAI 所在的技术赛道上,当然就处于劣势身位了。
一步错,步步错的“人生”,挺住意味着一切
坦诚地说,谷歌已经在积极解决问题,包括技术战略选择失误、内部的管理效率人事冗余、AI 技术人才的外流等。
去年 4 月,谷歌将自己的两个 AI“扛把子”团队——谷歌大脑和 DeepMind 合并,共同进行 Gemini 的开发。从最终效果来看,Gemini 的表现是很优秀的,1.5 版本是目前全球最领先的大模型之一。内部资源也大幅度向 AI 领域倾斜,一些外流的 AI 人才回归谷歌。
实际行动表明,谷歌在明确了赛道之后,追赶 OpenAI 的决心和速度都是一等一的。
但持续落后的现实也充分诠释了一点:自己的失败固然可怕,朋友的成功更让人揪心。
尽管谷歌竭力解决自身的种种弊病,全力推动大模型,但架不住 OpenAI 的加速度更强大。
一方面,OpenAI 的研发团队可谓是全力以赴,而谷歌新合并的团队还需要磨合。Sora 核心研发人员 Bill Peebles 曾透露,团队每天基本不睡觉高强度工作了一年。而谷歌大脑和 DeepMind 合并之后,很多员工不得不放弃自己原本熟悉的软件,放弃原本开展的项目去开发 Gemini,这些内部磨合导致的项目延迟、停滞,必然会给谷歌追赶 OpenAI 带来阻碍。
另外,相比谷歌亡羊补牢式地招回人才,OpenAI 虹吸全球顶级 AI 人才的气势如虹。就在 2 月份,Altman 公开在社交媒体上表示,“所有关键资源都已到位,非常专注于 AGI”,在线诚聘人才。AI 的竞争归根结底是人才的竞争,因为 AGI 最重要的是智力资源,而最顶尖最优秀的人才一共只有那么多,这也让人为谷歌能否追赶上 OpenAI 捏了一把汗。
电影《飞驰人生 2》中,主角再度尝试赛车而翻车后,他没有继续追求赛场上的赢,而是作为一个深爱着赛车运动的车手,踏上赛场,只为证明自己。
谷歌与 OpenAI 的对线,也不能归于简单的输和赢。正如谷歌在「Why We Focus on AI (and to what end)」中所言:我们相信 AI 能够成为一项基础技术,彻底改变全世界人民的生活——这正是我们追求的目标,也是我们的激情所在!
所有勇于下场、站上跑道的 AI“赛车手”,都值得掌声。而这场充满了速度与激情的 AGI 比赛,一定还会带给观众席上的我们,更多震撼。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/0b1ec08e49fc56b0446ca51be】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论